深度拆解 OpenClaw、Hermes、Mercury 三大开源 Agent 项目,提炼 Agentic 产品设计的九大核心维度。这不是 Chatbot 加强版——这是一套全新的产品范式,赋予 AI 持续行动、自主决策、真实影响世界的能力。
OpenClaw · Hermes · Mercury — 三种截然不同的 Agentic 产品哲学
这三个项目分别代表了 Agentic 产品设计的三种不同方向:OpenClaw 押注生态与开放性("运行在你自己的电脑上");Hermes 押注成长性与协议标准化(ACP 多 Agent 通信协议);Mercury 押注安全与可控("先请示,再行动")。三者共同定义了 2026 年 Agentic 产品的可能空间。
sudo/rm -rf /)、文件夹级读写作用域、审批流——这是在为企业和家庭用户解决"如何信任 AI 执行真实操作"的根本问题。
| 设计维度 | 🦞 OpenClaw | 🔮 Hermes | ☿ Mercury |
|---|---|---|---|
| 数据主权 | ✓ 本地优先,完全自托管 | ◑ 可自托管 | ✓ 本地配置 ~/.mercury/ |
| 身份/人格 | ✓ Persona 入驻引导 | ✓ 成长型记忆塑造 | ✓ soul.md / persona.md |
| 权限体系 | ◑ 技能级权限 | ◑ ACP 协议授权 | ✓ 精细化权限 + 审批流 |
| Token 预算 | ✗ 无 | ◑ 部分 | ✓ 日预算 + 自动节流 |
| 多通道接入 | ✓ WhatsApp/Telegram/Discord 等 | ◑ 扩展中 | ✓ CLI + Telegram |
| 多 Agent 协作 | ◑ Skills 间协作 | ✓ ACP 原生支持 | ✗ 单 Agent |
| Daemon 常驻 | ✓ 后台运行 | ✓ Docker 支持 | ✓ 系统服务 + 崩溃恢复 |
| 可扩展 Skills | ✓ 社区生态 + 自我扩展 | ✓ datagen + 插件 | ✓ Agent Skills 规范 |
| 企业级信任 | ◑ 个人向 | ◑ 研究向 | ✓ 审批流 + 组织访问控制 |
从 Chatbot 到 Agent:三个维度的根本跃迁
Chatbot = 会说话的百科全书,输出是文字,消费者是人类,影响是认知层。Agent = 有行动力的数字员工,输出是行动,消费者是系统和世界,影响是物理层和数据层。一个 Agent 发送的邮件、提交的代码、删除的文件——都是不可逆的真实后果。这是产品设计复杂度的本质跳跃。
你的 Agent 产品应该在哪个自主性级别上运营?关键问题:1) 你的目标用户对 AI 行动的容错率是多少(消费者低,开发者高)?2) 你的任务的可逆性如何(发邮件可道歉,删数据不可逆)?3) 你的用户监督成本多高(每步确认 = 摩擦,无确认 = 信任建立期长)?答案决定了你的审批流设计。
让 Agent 成为 Someone,而不是 Something
OpenClaw 用户说"这是我的 iPhone 时刻",Mercury 用户为 agent 起名字然后给它找家。这不是偶然——用户对有身份的 Agent 信任更高、粘性更强、使用更深入。Mercury 的 soul.md 系统让用户拥有自己定义的人格,这是 SaaS 永远无法复制的情感护城河。
Soul 文件不只是 System Prompt 的别称——它需要层次化注入:soul.md 进入最高优先级 System Prompt;persona.md 在每次对话开始时注入;taste.md 仅在相关任务(创意类)时注入;heartbeat.md 驱动定时任务。关键工程问题:当 Soul 文件与用户指令冲突时,谁优先?这是一个显式的产品决策,必须在架构设计期就明确,而非留到 prompt 层处理。
能力边界、危险防护、审批流——三层纵深防御
工具设计是 Agentic 产品工程复杂度最高的环节。Mercury 用 31 个工具覆盖了文件系统、Shell、Git、Web、消息、技能、调度、系统八大类。工具不只是功能——它是用户信任的具象化。每一个工具都代表着"我信任这个 Agent 可以做这件事"。设计原则:最小权限、最大可观测性、审批流防护不可逆操作。
read_file write_file create_file edit_file list_dir delete_file send_file approve_scope
run_command cd approve_command
git_status git_diff git_log git_add git_commit git_push
fetch_url send_message budget_status install_skill list_skills schedule_task
approve_scope 授权特定目录的读写权限,超出范围的操作需要新授权。allowed-tools,超出 skill 声明范围的工具调用需要额外授权,防止 skill 权限扩散。为什么所有顶级 Agent 都用 Telegram/WhatsApp,而不是 Web UI
OpenClaw 支持 WhatsApp / Telegram / Discord / 任意 Chat App;Mercury 支持 CLI + Telegram;Hermes 支持多 App 接入。这不是巧合——用户在哪里,Agent 就在哪里。相比 Web UI,Chat App 的天然优势是:通知是原生的(无需轮询)、移动端体验一流、信任链已建立(用户已经信任 Telegram)、多人协作原生支持。
让 Agent 真正"认识你":四层记忆架构
Hermes 的口号是 "The agent that grows with you",OpenClaw 的用户说 "Memory is amazing, context persists 24/7"——这是 Agentic 产品 vs Chatbot 最关键的体验差异。但记忆设计有巨大陷阱:记什么、忘什么、何时检索、检索代价多高?错误的记忆架构会导致 Context 爆炸、幻觉增加、隐私泄露。
让 Agent 24/7 活着:Daemon、崩溃恢复、调度系统三位一体
Mercury 的 mercury up 一键安装系统服务(macOS LaunchAgent / Linux systemd / Windows Task Scheduler)并启动后台 daemon。这是 Agentic 产品从"工具"到"员工"的关键跃迁——一个每次用完就死掉的 Agent 无法建立信任和记忆,更无法执行定时任务和主动通知。
mercury up:安装服务 + 启动 daemon + 确认运行,一条命令搞定0 9 * * * 每天早 9 点)delay_seconds: 900)~/.mercury/schedules.yaml从 Agent 到 Agent 平台:可组合能力生态的工程架构
Mercury 的 Agent Skills 规范、OpenClaw 的 Skills 社区、Hermes 的 datagen-config 插件——三个项目都把可扩展性作为核心架构。这不是巧合:单一 Agent 能力有限,但社区构建的 Skills 生态能让能力无限扩展。更关键的是 OpenClaw 的 self-hackable 设计——Agent 本身可以在对话中为自己安装新 Skill,这是真正的自我进化能力。
allowed-tools 和配置项。Mercury 通过 install_skill 工具安装,use_skill 调用,支持 Cron 调度。1. 隔离 vs 集成:Skills 应该在独立进程/沙盒中运行(安全)还是在主 Agent 进程中(性能)?Mercury 选择了进程内集成 + 声明式权限控制。2. 版本管理:Skill 升级可能破坏 Agent 行为,需要语义化版本 + 回滚机制。3. Skill 间通信:Hermes 的 ACP 协议解决了 Skill/Agent 间通信的标准化问题。4. 社区信任:用户安装社区 Skill 前,必须有签名验证机制,防止恶意 Skill 注入。
从 0 到 1 构建你的 Agent 产品:12 步决策框架 + 30 个工程考点
你的 Agent 在哪些操作上自主(无需确认),哪些操作上需要审批?基于用户风险承受能力和操作可逆性。这是所有权限设计的根基。
明确 soul.md(核心价值观)、persona.md(外部风格)、taste.md(审美判断)、heartbeat.md(主动行为)四个文件的内容和注入时机。给 Agent 一个真实的身份。
列举所有需要的工具,为每个工具标注风险级别(读/写/执行/外发),确定哪些需要审批。最小权限原则:只给 Agent 完成任务必需的权限。
你的目标用户在哪里?开发者 → CLI + Telegram;普通用户 → WhatsApp + 移动 App;企业用户 → Slack + 邮件。通道决定了 UX 设计和信任链。
明确工作记忆(当前对话)、情节记忆(历史摘要)、语义记忆(用户知识)、程序性记忆(如何做事)的存储格式和检索策略。确定 Context 压缩触发条件。
跨平台系统服务安装(macOS LaunchAgent / Linux systemd / Windows Task Scheduler)。指数退避重启策略。崩溃日志和状态恢复。
日预算上限 + 使用量追踪 + 超限节流(自动精简模式)+ 用户可查询/重置/超限覆盖。避免 runaway agent 产生意外账单。
首次运行的 30 秒配置:用户名、API Key、可选通道(Telegram Bot Token)。入驻过程本身就是 soul 塑造机会——让用户参与定义 Agent 的人格和偏好。
设计 Skill 规范(声明式权限、配置项、版本)。实现安装/卸载/升级 CLI。建立社区 Skill 注册表。考虑 Agent 自我安装 Skill 的安全边界。
组织场景需要 Admin/Member RBAC。配对码审批流防止未授权访问。私有 Chat Only(Mercury 永不响应群消息)。支持远程踢除。
操作日志(所有工具调用的审计日志)、Token 使用追踪、调度任务执行记录、错误监控。用户可用 mercury logs / mercury status 检查 Agent 状态。
所有配置和记忆数据是否在用户本地(Mercury 的 ~/.mercury/,OpenClaw 的本地优先)?还是云端同步?本地主权 = 更高信任 + 更好隐私 + 离线可用,但失去跨设备同步。
核心决策矩阵由两个维度决定:操作可逆性(可逆→可先行动;不可逆→先请示)× 用户信任级别(新用户→更多请示;老用户→更多自主)。
Mercury 的实践:文件读取自主,文件删除审批,Shell 命令默认审批但可白名单化。OpenClaw 的实践:例行任务(Cron/Heartbeat)完全自主,涉及外部通信先确认。产品建议:初期宁可多请示,随着信任积累逐渐开放权限。给用户控制感比速度更重要。
Prompt Injection 是 Agent 面临最严重的安全威胁:恶意内容(网页、邮件、文档里的隐藏指令)可能劫持 Agent 执行危险操作。
三层防御:1) 隔离原则(如 Dynamic Workflows 的 Quarantine 模式):读取不可信内容的 Agent 不得执行高权限操作,两类 Agent 物理隔离。2) 内容预处理:在将外部内容注入 Context 前,strip 可疑指令模式("ignore previous instructions"等)。3) 操作审批:涉及外部来源触发的操作,无论怎样都需要人工确认,不允许外部内容直接触发高权限工具。
ACP 是定义 Agent 之间如何发现、通信、协作的标准协议。Hermes 的 acp_adapter 和 acp_registry 模块实现了这一协议的适配层和注册中心。
为什么重要:随着 Agent 数量指数增长,Agent 之间的通信将成为核心基础设施需求——就像 HTTP 之于 Web。谁定义了 Agent 通信协议,谁就控制了 Agent 生态的入口。Hermes 的押注是:未来是多 Agent 协作的时代,ACP 是其中的"操作系统级"协议。这类比于 MCP(Model Context Protocol)在 Tool 层面的标准化尝试。
Mercury 的分级策略是最佳实践:70% 时自动切换精简模式(响应更短、更直接,减少闲聊);90% 时主动通知用户("今日预算即将用尽");100% 时暂停非紧急任务,等待用户确认是否继续(/budget override)。
关键原则:1) 预算限制不应阻止紧急通知(如崩溃警报);2) 用户应能随时查询预算状态(/budget);3) 预算重置应该简单(/budget reset);4) 日预算比月预算更容易控制用户心理预期(每天知道花了多少)。
本地优先(OpenClaw / Mercury 路线)的优势:数据主权(用户隐私/企业合规);连接私有本地系统(家庭网络、内网服务);离线可用;无厂商锁定;安全可审计。劣势:用户需要自己维护基础设施(安装/更新/备份);多设备同步难;对非技术用户门槛高。
云端 Agent(Manus/GPT Agent 路线)的优势:零运维、多设备同步、可横向扩展多 Agent 并行。劣势:数据在厂商服务器、无法连接私有系统、成本随使用量线性增长。产品建议:面向开发者/企业 → 本地优先;面向大众消费者 → 云端 + 端对端加密存储。
三类护城河,从浅到深:1) 工具集护城河(最浅):独特的 API 集成(如控接家电、企业私有系统)。竞争者可以复制,但需要时间。2) 个性化护城河(中等):用户的 soul.md、记忆、习惯积累是真实的切换成本——你换了 Agent,你的"数字分身"就要从零培训。3) 网络效应护城河(最深):社区 Skill 生态(OpenClaw 路线)和 Agent 间协议生态(Hermes ACP 路线)——更多用户 → 更多 Skill 开发者 → 更丰富的能力 → 吸引更多用户。这是 Agentic 产品的终极竞争格局。