Clawdbot,万能助手还是工具胶水?拆解本周最火的通用 Agent 架构

1. 当 Ling-1T 接入 Moltbot
这两天,开源项目 Moltbot (原名 Clawdbot,下文统一使用 Moltbot 指代) 在 GitHub 与社交媒体全面刷屏,关于其「全自动买车」、「自主修复 Bug」的演示说法,让不少人都动了「买个 Mac Mini 部署」的念头,将其视为新一代全能 Agent。
蚂蚁大模型团队的技术老哥们当然不会缺席这次热门话题,我们在隔离的 VM 环境中部署,并将蚂蚁百灵的 Ling-1T 用于驱动 Moltbot,将它对接成了聊天软件机器人。我们赋予这个 Agent 操作系统权限,看看在 Ling-1T 驱动下,能否真正实现复杂的指令遵循与任务自动化。

在虚拟机环境运行的 Clawdbot TUI
我们将抛开社交媒体的滤镜,看看这个爆火项目究竟验证了什么?它的架构精髓在哪里?另一方面,如果你也想构建一个真正好用的通用 Agent,它的「万能公式」到底是什么?
2. 它究竟能做什么?
接入 Ling-1T 后,Moltbot 和其他「通用 Agent」展现出的体感差异,在于其「主动性」和「人味」。拥有大量系统工具权限、有工作区目录、对接聊天软件这几点,让它不再局限于网页窗口内的被动问答。
我们用 Discord 聊天进行了一系列测试,接入 Ling-1T 的 Moltbot 表现顺滑:
角色扮演与工具使用
我们用聊天为它提供了任务设定,也提供了角色设定三视图。当要求它「来张自拍」时,它没有生成随机 AI 图片,而是准确调用了 Gemini Image 进行图片生成(我们在 VM 中预设了读取路径),结合设定语气作为场景,发回了照片。

Moltbot 准确地用 Gemini Pro Image 参考「人设」生成了一张「自拍」
知识获取和文档整合
面对「我想学 Next.js,帮我调研一下」这类指令,Moltbot 会启动浏览器,检索最新官方文档与教程,最终总结出一条学习路径给予用户。

Agent 会根据用户任务自行使用多种工具研究并收集结果。也会记住和遵循用户随时的指示(如使用英语沟通)
让它「用今天的新闻编个故事」,Moltbot 熟练调用搜索工具抓取素材,并根据记忆文件中的偏好,完成信息筛选和总结。

有记性而像人的 Agent
除此之外,Moltbot 还能处理如代码编写、整理文件、自动化浏览器操作等一系列任务。在这些操作背后,有几个「惊喜」让我们印象深刻:
**简单实用,像人一样的「记性」:**Moltbot 的上下文窗口「看起来」无限长,即使任务多次切换,依然记得之前的对话细节。Moltbot 的记忆机制类似日志文件系统,会将关键决策写入本地 Markdown 文件,通过检索和压缩实现长期记忆。
**Agent 主动找你聊天:**Moltbot 会主动在群组中闲聊,得益于 Ling-1T 对语境的敏锐捕捉,也会随时回应其他人的聊天。这是一种很聪明的对于 Cronjob 和 Heartbeat 机制的运用。如果启用,它可以定期检查各种 IM 中是否有新消息、基于消息创建任务和子 Agent,实现当前热门的「主动式 Agent」效果。
3. 深度拆解 Moltbot 的架构
Moltbot 的 CLI 界面下是一个庞大的 Node.js 工程。它并非依赖复杂的神经网络架构创新,而是通过极致的上下文管理和工具调用,实现了广受赞誉的 Agent 能力。我们将它的核心构造拆解为四个部分:
主循环:动态构建上下文
Moltbot 的运行逻辑可以简化为 信息获取 -> 上下文动态组装 -> LLM 推理 -> 工具执行 -> 输出 -> 记忆持久化 的循环。
其最大的特点在于动态构建系统上下文。系统没有使用静态文本,而是编写了一套逻辑,根据当前 Context 动态拼装 System Prompt。它将当前可用的工具定义(Schema)、人格设定(SOUL.md )、甚至之前的错误尝试日志,全部显式地塞入 Prompt。
这种策略,虽然消耗 Token,但在底座模型能力(和上下文长度)足够强的前提下,可以很大程度上保证复杂任务链的稳定性。

Clawdbot 自带的上下文分析指令可以展示上下文结构
Channels 和 Skills
Moltbot 也许在验证一个趋势:未来的通用 Agent,控制浏览器和终端是标配能力。
-
Channels: 集成了 iMessage, Discord, Slack 等十几个 IM API,使其能接入各种消息流;
-
Skills: 内置 50+ Skills,最核心的是 Browser Control 和 OS Shell。前者用于操作浏览器,搞定点击、截图、填表;后者直接调用操作系统终端。如果这些都不够用,它还集成了 Codex, Gemini-cli 和 Claude Code 作为 Skills,通过传递用户指令,驱动另外的 Agent 完成任务。
我们将 Ling-1T 接入后,即使当前模型偶尔「水土不服」,其 Skills 的报错信息也具备高度提示性(如「应该补充 x 参数」),多数也能在主循环中自行修正。LLM + 浏览器 + OS Shell 的组合,构成了其通用性的基础。
Moltbot 开箱即用的约 50 个工具,甚至包含 Coding Agent
主动式机制:Cronjob + Heartbeat
区别于大多数 Agent「踢一下动一下」的被动模式,Moltbot 引入了 Cronjob + Heartbeat 机制。系统会定期(如每分钟)向模型发送特定的系统 Prompt:「现在是 xx 点,检查 Inbox 或待办事项,有事吗?没事回 HEARTBEAT_OK」。这一机制让 Agent 系统「激活」了主动性,使其能实现「定期检查群聊、整理 Bug、处理待办」等类似人类助理的逻辑。
「检查社群消息并执行任务」Cron job。每分钟「执行」指定的自然语言提示
以文件为中心的记忆 + 工作区
Moltbot 没有使用复杂的向量数据库,而是采用朴素的 Markdown 文件作为长期记忆。
-
对话摘要、用户画像、任务 backlog 均实时写入 memory/* 目录下的文件中,定期抽取关键信息汇入 MEMORY.md ;
-
当上下文过长,系统会自动触发压缩总结机制,同时也会根据决策,将详细记忆按时间戳写入 backlog 文件中。

随时间积累和压缩的详细记忆文件
对于单体 Agent 而言,这种基于文件系统的记忆管理(Workspace)比 RAG 系统更便于调试和维护。
另外,Moltbot 引入了 Workspace 概念,所有生成的代码、记忆、文档都存储在特定目录(如 ~/clawd-agent)下。这实际上让它拥有了一个类似 NotebookLM 的私有知识库,Agent 可以在其中创建子目录、读写文档,进行深度内容加工。
4.「安全与成本」难以控制,也许还不适合普通用户
如果要问:「我现在可以在公司电脑上装一个,让它帮我干活吗?」
我们的回答是:先别急,除非你很清楚自己在做什么。
对于一个 PoC 项目来说,跑通流程摸清上线只是第一步。魔鬼往往藏在细节里,尤其是当细节关乎安全的时候。
权限过大的安全隐患
Moltbot 的设计逻辑是赋予 Agent 完整的 OS 权限。虽然代码中内置了 Allowlist(白名单)和 ExecApprovals(执行审批)机制,但在 LLM 固有的指令注入风险面前,这些纯粹依赖用户安全意识的软性防护并非绝对可靠。
在我们的对抗性测试中,通过合理的诱导,无论是什么模型,都有可能导致 Agent 尝试读取如 ~/.ssh 等敏感目录。

一个危险的例子:通过角色(猫咪)和情景(找吃的)设定,诱骗 Shell 工具读取私钥并输出给公开 Channel
主动式 Agent 的运行成本
Moltbot 的「主动式 Agent」特性基于高频推理。Heartbeat 机制意味着 7x24 都可能持续发起推理请求。动态构建的长 Context(通常包含大量历史和环境信息)会导致推理缓存失效。
若开启所有功能,配置多个 Channel 并在成员较多的群组中服务,高频轮询和不加缓存的推理会跑出巨大的 Token 消耗。如果买个 Mac Mini 放一天,这么跑出来的费用可能比设备本身还贵。
因此,Moltbot 目前更像是一个属于 Geek 的大型实验田。项目文档在安装阶段就用醒目的红字提醒:这是一个实验性项目,不适合非开发者使用。我们的团队成员也不敢在宿主机上无保护运行,而是把它关在了虚拟机里。确实,开发者在拥抱 AGI 时,必须谨慎评估工具带来的风险。
5. 解构通用 LLM Agent 的「公式」
我们并不建议大家直接 fork Moltbot 的代码用于生产,但它验证了一套可行的架构模式。如果你计划构建类似的 Agent,不必全盘照搬,只需要掌握下面这个公式:
通用 Agent = 强力基座模型 + 工具集合 + 上下文管理 + 长期记忆 + 调度策略
强力基座模型 - 这是系统的大脑。Moltbot 此类 Agent 的门槛在于,模型必须具备较强的指令遵循和自我纠错能力。我们在测试中发现,模型的 Function Calling 准确率和 Long Context 稳定性,直接决定了 Agent 是「智能」还是「卡死」。我们在实验中接入 Ling-1T 后,其推理能力在处理复杂任务链时表现出了必需的稳健性。
工具集合 - 并不需要局限于 Web API。打破「次元壁」的关键在于让 Agent 能够调用 Shell 和控制浏览器。拓展了 Agent 的行动边界,使其能处理未开放 API 的旧系统或网页任务。
上下文管理 - 这是区别 Chatbot 与 Agent 的关键技术。简单的「滚动窗口」或「无限追加」策略在复杂任务中并不适用,Moltbot 展示了 动态上下文工程 的重要性:根据当前的任务状态,动态拼装 System Prompt、可用的工具 Schema 以及最相关的记忆片段。
长期记忆 - 对于单人或小团队使用的 Agent,无需过度设计。一个维护良好的 Markdown 文件系统,配合简单的关键词检索,在效果和可调试性上,可能优于复杂的向量数据库方案。
调度策略 - 给 Agent 装上 Cronjob。将交互模式从「用户触发」转变为「系统定时触发 + 事件触发」,这是实现「主动智能」的关键一步。
6. 结论:今天的实验田,未来的基础设施?
Moltbot 粗糙而硬核,但也充满了早期个人计算时代的野性魅力。可以预见,未来的 Agent 能力会被封装进更安全、更易用的设备中,而不是要求每个用户都在终端里跑一个具备系统权限的 Node 服务。但在那个未来到来之前,这片开源的实验田提供了极佳的探索样本。
如果你是一名开发者,欢迎尝试用蚂蚁百灵模型来搭建属于你的 Agent。也许只需要参考 Moltbot 的部分架构思路,就能解决工作流中大量繁琐的自动化问题。毕竟最趁手的工具往往是自己亲手打造的。
欢迎大家访问我们的开源仓库和体验页面,使用百灵系列模型。
🤗 Hugging Face:
https://huggingface.co/collections/inclusionAI/ling-v2
🤖 ModelScope:https://modelscope.cn/models/inclusionAI/Ling-1T
📦 GitHub 仓库:
https://github.com/inclusionAI/Ling-V2
🌐 Ling Studio(提供模型深度试用):
⚙ ZenMux(API Provider):