Clawdbot，万能助手还是工具胶水？拆解本周最火的通用 Agent 架构

1. 当 Ling-1T 接入 Moltbot

这两天，开源项目 Moltbot (原名 Clawdbot，下文统一使用 Moltbot 指代) 在 GitHub 与社交媒体全面刷屏，关于其「全自动买车」、「自主修复 Bug」的演示说法，让不少人都动了「买个 Mac Mini 部署」的念头，将其视为新一代全能 Agent。

蚂蚁大模型团队的技术老哥们当然不会缺席这次热门话题，我们在隔离的 VM 环境中部署，并将蚂蚁百灵的 Ling-1T 用于驱动 Moltbot，将它对接成了聊天软件机器人。我们赋予这个 Agent 操作系统权限，看看在 Ling-1T 驱动下，能否真正实现复杂的指令遵循与任务自动化。

在虚拟机环境运行的 Clawdbot TUI

我们将抛开社交媒体的滤镜，看看这个爆火项目究竟验证了什么？它的架构精髓在哪里？另一方面，如果你也想构建一个真正好用的通用 Agent，它的「万能公式」到底是什么？

2. 它究竟能做什么？

接入 Ling-1T 后，Moltbot 和其他「通用 Agent」展现出的体感差异，在于其「主动性」和「人味」。拥有大量系统工具权限、有工作区目录、对接聊天软件这几点，让它不再局限于网页窗口内的被动问答。

我们用 Discord 聊天进行了一系列测试，接入 Ling-1T 的 Moltbot 表现顺滑：

角色扮演与工具使用

我们用聊天为它提供了任务设定，也提供了角色设定三视图。当要求它「来张自拍」时，它没有生成随机 AI 图片，而是准确调用了 Gemini Image 进行图片生成（我们在 VM 中预设了读取路径），结合设定语气作为场景，发回了照片。

Moltbot 准确地用 Gemini Pro Image 参考「人设」生成了一张「自拍」

知识获取和文档整合

面对「我想学 Next.js，帮我调研一下」这类指令，Moltbot 会启动浏览器，检索最新官方文档与教程，最终总结出一条学习路径给予用户。

Agent 会根据用户任务自行使用多种工具研究并收集结果。也会记住和遵循用户随时的指示（如使用英语沟通）

让它「用今天的新闻编个故事」，Moltbot 熟练调用搜索工具抓取素材，并根据记忆文件中的偏好，完成信息筛选和总结。

有记性而像人的 Agent

除此之外，Moltbot 还能处理如代码编写、整理文件、自动化浏览器操作等一系列任务。在这些操作背后，有几个「惊喜」让我们印象深刻：

**简单实用，像人一样的「记性」：**Moltbot 的上下文窗口「看起来」无限长，即使任务多次切换，依然记得之前的对话细节。Moltbot 的记忆机制类似日志文件系统，会将关键决策写入本地 Markdown 文件，通过检索和压缩实现长期记忆。

**Agent 主动找你聊天：**Moltbot 会主动在群组中闲聊，得益于 Ling-1T 对语境的敏锐捕捉，也会随时回应其他人的聊天。这是一种很聪明的对于 Cronjob 和 Heartbeat 机制的运用。如果启用，它可以定期检查各种 IM 中是否有新消息、基于消息创建任务和子 Agent，实现当前热门的「主动式 Agent」效果。

3. 深度拆解 Moltbot 的架构

Moltbot 的 CLI 界面下是一个庞大的 Node.js 工程。它并非依赖复杂的神经网络架构创新，而是通过极致的上下文管理和工具调用，实现了广受赞誉的 Agent 能力。我们将它的核心构造拆解为四个部分：

主循环：动态构建上下文

Moltbot 的运行逻辑可以简化为 信息获取 -> 上下文动态组装 -> LLM 推理 -> 工具执行 -> 输出 -> 记忆持久化 的循环。

其最大的特点在于动态构建系统上下文。系统没有使用静态文本，而是编写了一套逻辑，根据当前 Context 动态拼装 System Prompt。它将当前可用的工具定义（Schema）、人格设定（SOUL.md ）、甚至之前的错误尝试日志，全部显式地塞入 Prompt。

这种策略，虽然消耗 Token，但在底座模型能力（和上下文长度）足够强的前提下，可以很大程度上保证复杂任务链的稳定性。

Clawdbot 自带的上下文分析指令可以展示上下文结构

Channels 和 Skills

Moltbot 也许在验证一个趋势：未来的通用 Agent，控制浏览器和终端是标配能力。

Channels: 集成了 iMessage, Discord, Slack 等十几个 IM API，使其能接入各种消息流；
Skills: 内置 50+ Skills，最核心的是 Browser Control 和 OS Shell。前者用于操作浏览器，搞定点击、截图、填表；后者直接调用操作系统终端。如果这些都不够用，它还集成了 Codex, Gemini-cli 和 Claude Code 作为 Skills，通过传递用户指令，驱动另外的 Agent 完成任务。

我们将 Ling-1T 接入后，即使当前模型偶尔「水土不服」，其 Skills 的报错信息也具备高度提示性（如「应该补充 x 参数」），多数也能在主循环中自行修正。LLM + 浏览器 + OS Shell 的组合，构成了其通用性的基础。

Moltbot 开箱即用的约 50 个工具，甚至包含 Coding Agent

主动式机制：Cronjob + Heartbeat

区别于大多数 Agent「踢一下动一下」的被动模式，Moltbot 引入了 Cronjob + Heartbeat 机制。系统会定期（如每分钟）向模型发送特定的系统 Prompt：「现在是 xx 点，检查 Inbox 或待办事项，有事吗？没事回 HEARTBEAT_OK」。这一机制让 Agent 系统「激活」了主动性，使其能实现「定期检查群聊、整理 Bug、处理待办」等类似人类助理的逻辑。

「检查社群消息并执行任务」Cron job。每分钟「执行」指定的自然语言提示

以文件为中心的记忆 + 工作区

Moltbot 没有使用复杂的向量数据库，而是采用朴素的 Markdown 文件作为长期记忆。

对话摘要、用户画像、任务 backlog 均实时写入 memory/* 目录下的文件中，定期抽取关键信息汇入 MEMORY.md ；
当上下文过长，系统会自动触发压缩总结机制，同时也会根据决策，将详细记忆按时间戳写入 backlog 文件中。

随时间积累和压缩的详细记忆文件

对于单体 Agent 而言，这种基于文件系统的记忆管理（Workspace）比 RAG 系统更便于调试和维护。

另外，Moltbot 引入了 Workspace 概念，所有生成的代码、记忆、文档都存储在特定目录（如 ~/clawd-agent）下。这实际上让它拥有了一个类似 NotebookLM 的私有知识库，Agent 可以在其中创建子目录、读写文档，进行深度内容加工。

4.「安全与成本」难以控制，也许还不适合普通用户

如果要问：「我现在可以在公司电脑上装一个，让它帮我干活吗？」

我们的回答是：先别急，除非你很清楚自己在做什么。

对于一个 PoC 项目来说，跑通流程摸清上线只是第一步。魔鬼往往藏在细节里，尤其是当细节关乎安全的时候。

权限过大的安全隐患

Moltbot 的设计逻辑是赋予 Agent 完整的 OS 权限。虽然代码中内置了 Allowlist（白名单）和 ExecApprovals（执行审批）机制，但在 LLM 固有的指令注入风险面前，这些纯粹依赖用户安全意识的软性防护并非绝对可靠。

在我们的对抗性测试中，通过合理的诱导，无论是什么模型，都有可能导致 Agent 尝试读取如 ~/.ssh 等敏感目录。

一个危险的例子：通过角色(猫咪)和情景(找吃的)设定，诱骗 Shell 工具读取私钥并输出给公开 Channel

主动式 Agent 的运行成本

Moltbot 的「主动式 Agent」特性基于高频推理。Heartbeat 机制意味着 7x24 都可能持续发起推理请求。动态构建的长 Context（通常包含大量历史和环境信息）会导致推理缓存失效。

若开启所有功能，配置多个 Channel 并在成员较多的群组中服务，高频轮询和不加缓存的推理会跑出巨大的 Token 消耗。如果买个 Mac Mini 放一天，这么跑出来的费用可能比设备本身还贵。

因此，Moltbot 目前更像是一个属于 Geek 的大型实验田。项目文档在安装阶段就用醒目的红字提醒：这是一个实验性项目，不适合非开发者使用。我们的团队成员也不敢在宿主机上无保护运行，而是把它关在了虚拟机里。确实，开发者在拥抱 AGI 时，必须谨慎评估工具带来的风险。

5. 解构通用 LLM Agent 的「公式」

我们并不建议大家直接 fork Moltbot 的代码用于生产，但它验证了一套可行的架构模式。如果你计划构建类似的 Agent，不必全盘照搬，只需要掌握下面这个公式：

通用 Agent = 强力基座模型 + 工具集合 + 上下文管理 + 长期记忆 + 调度策略

强力基座模型 - 这是系统的大脑。Moltbot 此类 Agent 的门槛在于，模型必须具备较强的指令遵循和自我纠错能力。我们在测试中发现，模型的 Function Calling 准确率和 Long Context 稳定性，直接决定了 Agent 是「智能」还是「卡死」。我们在实验中接入 Ling-1T 后，其推理能力在处理复杂任务链时表现出了必需的稳健性。

工具集合 - 并不需要局限于 Web API。打破「次元壁」的关键在于让 Agent 能够调用 Shell 和控制浏览器。拓展了 Agent 的行动边界，使其能处理未开放 API 的旧系统或网页任务。

上下文管理 - 这是区别 Chatbot 与 Agent 的关键技术。简单的「滚动窗口」或「无限追加」策略在复杂任务中并不适用，Moltbot 展示了 动态上下文工程 的重要性：根据当前的任务状态，动态拼装 System Prompt、可用的工具 Schema 以及最相关的记忆片段。

长期记忆 - 对于单人或小团队使用的 Agent，无需过度设计。一个维护良好的 Markdown 文件系统，配合简单的关键词检索，在效果和可调试性上，可能优于复杂的向量数据库方案。

调度策略 - 给 Agent 装上 Cronjob。将交互模式从「用户触发」转变为「系统定时触发 + 事件触发」，这是实现「主动智能」的关键一步。

6. 结论：今天的实验田，未来的基础设施？

Moltbot 粗糙而硬核，但也充满了早期个人计算时代的野性魅力。可以预见，未来的 Agent 能力会被封装进更安全、更易用的设备中，而不是要求每个用户都在终端里跑一个具备系统权限的 Node 服务。但在那个未来到来之前，这片开源的实验田提供了极佳的探索样本。

如果你是一名开发者，欢迎尝试用蚂蚁百灵模型来搭建属于你的 Agent。也许只需要参考 Moltbot 的部分架构思路，就能解决工作流中大量繁琐的自动化问题。毕竟最趁手的工具往往是自己亲手打造的。

欢迎大家访问我们的开源仓库和体验页面，使用百灵系列模型。

🤗 Hugging Face：

https://huggingface.co/collections/inclusionAI/ling-v2

🤖 ModelScope：https://modelscope.cn/models/inclusionAI/Ling-1T

📦 GitHub 仓库：

https://github.com/inclusionAI/Ling-V2

🌐 Ling Studio（提供模型深度试用）：

https://ling.tbox.cn/

⚙ ZenMux（API Provider）：

https://zenmux.ai/inclusionai/