2026 年 AI Agent 赛道已由 OpenClaw 开源基座 + 多家大厂商业封装 的格局主导。6 款实测商业产品中,腾讯 WorkBuddy(5.00)、智谱 AutoClaw(4.80)、腾讯 QClaw(4.70)位列前三;讯飞 Loomy 以 4.25 分与字节 ArkClaw 并列第 4,基础能力处于中游水平。开源框架 Hermes(基于 Nous Research 多年 LLM 研究积累推出)加权得分 4.75,已达到甚至超过部分商业产品的能力水平。
本报告由单人在约 3 周内完成实测与记录。评分为主观判断,加权分的小数位差距不必严格对待。建议把分数作为"分档参考"(头部 / 中游 / 偏后),把各产品的文字观察作为主要判断依据。未深度实测的产品(KimiClaw、DuMate)未纳入打分,仅依公开资料在第 3 章脚注简评。
⊙ 评分体系 · 本报告采用的 7 个评估维度 + 加权权重(D3 IM 渠道 20% / D4 任务完成 25% / D5 模型切换 20% / D7 定时任务 10% / D8 技能生态 10% / D10 人格 10% / D9 安全 5%,共 100%), 详细说明见附录。
6 款商业产品在"接入方式"上高度一致——全部提供桌面入口,全部需要配置 IM 渠道。真正的结构性差异在于 Agent 操作的是哪一台电脑:
| 形态 | 代表产品 | 操作对象 | 优势 | 劣势 |
|---|---|---|---|---|
| 操作本地电脑 | AutoClaw / QClaw / WorkBuddy / Loomy | 用户本机文件系统与进程 | 原生文件权限、本地计算、隐私可控;Agent 可调用本机工具链 | 需安装部署;Agent 能力受本机环境与权限约束 |
| 操作云端电脑 | ArkClaw / MaxClaw | 厂商提供的云端虚拟机 | 零安装即用;云电脑界面可视化好;不依赖用户本机配置 | "本地文件"实际是云端文件,对用户有概念误导;深度任务受网络与云端限制 |
按"模型开放度"与"用户自定义空间"两个维度对 6 款商业产品 + 2 款开源框架做分布可视化。两个维度均为本次评测中最能体现产品策略分歧的指标。
在完成市场全貌与综合评分之后,第 3 章将对 6 款商业产品逐一剖析——先通过单表呈现完整评分矩阵,再围绕每款产品的定位、核心表现、代表性实测评语展开讨论。
本章按加权排名顺序逐一呈现 6 款商业产品。先给出对比索引表(含开源对照两款),再进入逐一剖析。两款未深测产品(KimiClaw / DuMate)的情况于章节末以脚注形式交代。
下表汇总 6 款商业产品 + 2 款开源框架共 8 个样本在 7 个评估维度上的得分与加权总分,为后续逐一剖析提供单页对比视图。开源样本以紫色背景区分,不参与商业产品主排名。
| 产品 | IM 渠道 20% |
任务完成 25% |
模型切换 20% |
定时任务 10% |
技能生态 10% |
人格配置 10% |
安全隐私 5% |
加权分 | 排名 |
|---|---|---|---|---|---|---|---|---|---|
| WorkBuddy | 5 |
5 |
5 |
5 |
5 |
5 |
5 |
5.00 | 第 1 |
| AutoClaw | 5 |
5 |
5 |
4 |
4 |
5 |
5 |
4.80 | 第 2 |
| Hermes 开源对照 |
5 |
5 |
4 |
5 |
5 |
5 |
4 |
4.75 | 参考 |
| QClaw | 5 |
5 |
4 |
4 |
5 |
5 |
5 |
4.70 | 第 3 |
| OpenClaw 开源对照 |
5 |
5 |
4 |
5 |
5 |
5 |
3 |
4.70 | 参考 |
| ArkClaw | 4 |
5 |
5 |
3 |
3 |
4 |
4 |
4.25 | 并列 4 |
| Loomy 讯飞 |
5 |
5 |
4 |
4 |
3 |
3 |
4 |
4.25 | 并列 4 |
| MaxClaw | 5 |
5 |
3 |
3 |
3 |
5 |
4 |
4.15 | 第 6 |
定位与表现:腾讯云旗下研发协作 AI Agent,同时服务 IDE 编程场景和通用办公场景。凭借腾讯生态深度打通,成为本次评测唯一在 7 个维度均拿满分的产品。核心优势在于微信客服号/小程序原生集成带来的用户触达、桌面与小程序双端均可切换模型的灵活度、以及 Ubuntu 沙盒虚拟机环境下较完善的安全隔离。主要短板集中在产品形态层面:官网下载入口存在混乱(有时下载到 IDE、有时到 Claw)、IDE 与 Claw 两种 workspace 的关系对用户不够直观、付费门槛相对 QClaw 免费策略缺乏吸引力。
定位与表现:面向个人用户的桌面 AI 助理,整体产品完成度在赛道中处于高位。核心优势包括:界面美观简洁,新用户上手友好度高;Agent 可在对话中原生触发定时任务(本次评测中是唯一做到的商业产品);每个 Agent 人格可命名并绑定到独立 IM 频道,人格隔离清晰;首次启动主动弹出"安全与风险指南"对用户进行边界认知引导;模型池覆盖 GLM / DeepSeek / Kimi / MiniMax / 豆包多家。主要短板在技能生态的内容质感("AI 味"偏重、原创性不足),以及部分 Skill(如小红书)受平台额度限制。
定位与表现:腾讯旗下面向大众用户的 Claw 产品,采用"官方承担成本抢占用户心智"的竞争策略。核心优势首推其独一档的免费策略——4000 万 Token/日由腾讯承担成本、公测期无需邀请码;叠加微信扫码 30 秒完成绑定、桌面与微信双端同步聊天记录、一条 Prompt 可批量安装 6 个技能、系统提示词拦截清晰等产品细节,对大众用户构成强吸引力。主要短板在于模型池受限于国产厂商(未支持 OpenAI / Anthropic)、定时提醒的输出格式夹杂原生代码(对普通用户不够友好)、以及免费期结束后的商业模式尚不明朗。
[cron:a5f35afd-3dee-4ccf-99ed-fe1863289f75 喝水提醒] 喝水时间到!💧 起来喝点水吧~
这并非普通对话的呈现,类似系统模板泄漏。
定位与表现:字节 / 火山引擎的云端 AI 助理,主打零安装与可视化云电脑。核心优势在于手机号登录即用、独有的"云电脑"可视化展示(用户可观察 Agent 在云端的操作过程)、豆包 Seed 2.0 Pro 模型能力扎实、以及飞书深度集成所带来的企业协作场景先天入口。主要短板集中在体验层面:模型响应速度明显偏慢、"本地文件"实际指向云端虚拟机文件(对用户存在概念误导)、定时任务需跳转到单独页面手工配置且 Agent 对话响应慢(实测约 5 分钟)、技能生态封闭不支持第三方扩展。
定位与表现:MiniMax 基于 M2.5 / M2.7 模型打造的云端 Agent,通过"多专家 Agent 协作"(如多 Agent 投研团队)做差异化,且是本次评测中唯一提供移动 App 的商业产品。核心优势在于模型响应速度(实测快于 ArkClaw)、精致的可视化展示窗口、丰富的专家 Agent 预设、以及对话式引导的人格配置。主要短板在于厂商锁定最严——只支持 MiniMax 自家模型池,无法切换到字节 / Kimi / OpenAI / Claude;用户无服务器 / 浏览器 / 终端入口(例如无法自行完成需要浏览器登录的小红书发布等任务),用户自由度显著受限;定时任务稳定性也存在问题(实测 3 次才通过)。
定位:讯飞的桌面级 AI 个人助理,面向办公场景。实测整体表现稳定在中游水平——5 个维度(IM 渠道 / 任务完成 / 模型切换 / 定时任务 / 安全)处于 4-5 分;2 个维度(技能生态 / 人格配置)为 3 分,是主要差距点。
核心观察:两个偏低维度共同指向"限制用户自定义能力"——技能生态不支持第三方 Skill、人格配置不支持多角色定制。属产品策略选择,非技术瓶颈。此外实测中发现一个典型断点:定时任务在设置页能建、Agent 在对话中却回复"做不了",是本次评测所有产品中体验割裂最明显的一处。
Loomy 的详细产品机会分析见 第 7 章「Loomy 观察与思考」,包含三个可落地的改进方向与可参考的行业实践。
至此完成 6 款商业产品在能力层面的逐一对照。第 4 章将视线转向 2 款开源框架——OpenClaw 作为赛道基座、Hermes 作为近期热门的进化版本——用以审视"去掉产品化包装之后,Agent 框架的能力边界在何处"。
OpenClaw 与 Hermes 作为开源对照组测评,单独评估,不参与商业产品主排名。设置这一组的目的,是审视"如果去掉产品化包装,Agent 框架的能力边界在何处",并借此理解开源路线对商业赛道的影响。(本章数据截至 2026-04-14;Hermes 发版频率较高,具体数据建议以该日期为准。)
两款开源项目在本赛道中扮演的角色并不相同——OpenClaw 是赛道公共基础设施,Hermes 是基于该思路的进化版本。二者的定位与关键指标如下表:
| 维度 | OpenClaw (拓荒者) | Hermes Agent (进化者) |
|---|---|---|
| 定位 | 赛道公共基础设施 —— 6 款实测商业产品基本都基于其二次封装 | 在 OpenClaw 设计思路上重新实现 + 扩展,加入模型自学习闭环(任务后自动生成 SKILL.md) |
| 团队 / 背景 | Peter Steinberger(奥地利开发者) | Nous Research(2022 年成立,已融资约 6500 万美元,Paradigm 领投;团队从 2022 年起深耕 LLM 后训练,Hermes 模型系列持续迭代多个版本) |
| GitHub 仓库 | ↗ github.com/openclaw/openclaw | ↗ github.com/NousResearch/hermes-agent |
| 官方文档 | ↗ docs.openclaw.ai | ↗ hermes-agent.nousresearch.com |
| Star 数 | 357,000+ | 83,827+ |
| 最新版本 | 持续迭代 | v0.9.0(2026-04-13 发布) |
| 许可证 | MIT | MIT |
| 架构特点 | Node.js Gateway 进程(127.0.0.1:18789),Hub-and-Spoke 路由 | 延续 OpenClaw 架构思路,核心加分项为模型自学习闭环 |
| 原生 IM | 11+(WhatsApp / Telegram / Slack / Discord / Signal / Matrix …) | 16 个(含飞书 / 企微 / 钉钉 / 微信 / QQ 等中国平台) |
| 模型支持 | 配合通用 LLM API 使用 | OpenRouter 200+ 模型 + 直连 OpenAI / Anthropic / Kimi / MiniMax / GLM |
| Skills / 生态 | ClawHub 2,857+ 个 Skill(每个 Skill 本身是 MCP 服务器) | 延续 Skill 概念 + 自学习机制自动扩展 |
| 部署方式 | 本地 / Docker / DigitalOcean 一键部署 / VPS 自托管 | 本地 / Docker / VPS 自托管 |
在相同评分体系下,OpenClaw 加权得分 4.70、Hermes 4.75,已达到与商业赛道头部相近甚至超越部分商业产品的水平。以下实测观察给出具体的能力与风险画像。
将开源组与 6 款商业产品在多个维度上横向对比,可以更清晰地看出二者的相对优势与盲区:
| 对比项 | 开源(OpenClaw / Hermes) | 商业产品 |
|---|---|---|
| 能力上限 | 4.70 - 4.75 | 4.15 - 5.00(上限略高) |
| 部署门槛 | 2-3/5(需技术背景) | 5/5(零门槛) |
| 模型自由度 | 完全自定义(200+ 模型) | 厂商池(5-10 个) |
| 成本 | 软件免费,模型 API 自付 | 39-199 元/月订阅 |
| 安全 | 默认 ALLOW-ALL,需自加固 | 厂商保障(沙盒 / 权限审计) |
| 生态 | 2,857+ 社区 Skills,部分有恶意 | 10-100+ 官方审核 Skills |
| 目标用户 | 开发者、极客、科研团队 | 普通用户、企业员工 |
基于上述对比,观察到开源路线对整个赛道的四点结构性含义:
能力层面的比较完成之后,第 5 章将视角从"产品本身"转向"产品外延"——社交媒体接入能力与官方沟通渠道生态这两项独立调研,反映厂商如何连接外部世界与用户社群。
测评过程中围绕"产品如何与外部世界连接"做了两项独立调研:社交媒体接入能力(产品能否读写小红书 / 微博 / 抖音等)与 官方沟通渠道生态(厂商如何维护用户社群)。以下为核心发现与完整报告链接。
| 层级 | 标记 | 能力定义 | 代表 |
|---|---|---|---|
| L1 原生发布 | ✅ 原生 | 产品内置、平台方授权 API 级集成 | ArkClaw → 抖音(字节系) |
| L2 官方插件 | 🔌 插件 | 官方提供配置指南,少量配置 | KimiClaw → 飞书 |
| L3 社区生态 | 🌐 Skills | 通过 ClawHub / openclaw-china 等社区实现 | QClaw 小红书 Skills(136+ 个) |
| L4 屏幕操作 | 🤖 RPA | RPA/CDP 操作 UI,不依赖 API | AutoClaw → 所有平台 |
| L5 内容生成 | 📝 生成 | 仅生成文案,需手动复制发布 | WorkBuddy 运营专家 |
围绕 8 款产品的官方沟通渠道做了横向调研,核心观察如下:
注:各家厂商的社群运营策略动态变化较快,详细渠道清单请以配套调研为准,并以官网实际信息为准。
生态与传播层面的差异之外,第 6 章进入商业维度:完整定价对比,含未深测的 KimiClaw 与 DuMate。
完成对赛道整体的观察后,第 7 章将视角聚焦回 Loomy:基于前述评分数据与横向对比,讨论其核心产品力、三个值得重点关注的机会点、以及可参考的行业实践。
Loomy 当前加权得分 4.25,与字节 ArkClaw 并列第 4。7 个维度中 5 项(IM 渠道 / 任务完成度 / 模型切换 / 定时任务 / 安全)处于 4-5 分水平,2 项(技能生态 / 人格配置)为 3 分。两个偏低维度的共同特征是"限制用户自定义能力",属生态开放度的选择,而非技术瓶颈。
本章基于前述评分数据与实测观察,从"产品机会分析"视角展开更深入讨论。
基于赛道横向对比,以下 3 个维度是 Loomy 与头部产品体验差距最明显的地方,且均属于"产品策略调整"而非"底层技术重构"的范畴。
实测中观察到一个典型断点:用户在对话中请求"3 分钟后提醒我喝水"时,Agent 明确回复"做不了";但在设置页面中可以手动创建定时任务。这表明定时任务系统在底层是存在的,但未封装为 Agent 可调用的 tool,导致对话层与任务层割裂。
对照之下,AutoClaw、WorkBuddy、QClaw 均实现了 Agent 对话中直接触发定时任务。从用户体感上,"产品的 Agent 调不动产品本身的功能"是明显可感知的缺陷。该机会点的改造成本相对较低,但改进幅度可被用户直接感知。
Loomy 当前的"记忆"模块允许用户描述沟通风格偏好(如"回复简短一些"),但不支持创建完整的自定义人格或多角色切换。对比 AutoClaw 的做法——允许命名多个 Agent + 为每个 Agent 绑定独立 IM 频道 + 对话式引导创建人格——两种体验的用户心理归属差异显著:前者是"调教 AI 说话方式",后者是"拥有多个角色化的 AI 助理"。
此外,实测过程中观察到 Loomy 的"记忆"并非 100% 严格遵守——例如明确要求"回复不超过两句"后,部分回复仍会出现长段落,显示记忆层与生成层的协同存在优化空间。
Loomy 目前仅开放官方技能(实测统计在 10-50 个量级)。对比之下:
因此在 Loomy 的决策框架中,"完全封闭"与"完全开放"均非理想方案。一个值得参考的路径是"官方审核 + 用户可选接入"的分级机制——官方认证技能保持主推,同时向用户开放受限的第三方技能接入通道,在安全与生态活力之间做平衡。
微信端稳定性的偶发问题。实测中出现过微信 Agent 偶发断联、桌面端聊天记录清空的情况,一段时间后自动恢复。考虑到 Loomy 处于公测初期(2026 年 4 月 20 日刚开放注册),此类稳定性问题在意料之中,但对用户长期留存影响不可忽视。
赛道其他产品中值得参考的设计细节。除前文提及的机会点对照之外,以下细节在测评中给出了较深印象,列作后续产品规划的参考:
| 产品 | 值得关注的设计点 |
|---|---|
| AutoClaw | 首次安装时主动弹出"安全与风险使用指南",在用户建立产品使用边界认知上做得到位 |
| WorkBuddy | 沙盒虚拟机(Ubuntu)环境隔离在赛道中最完善;桌面版 + 微信小程序双端均可切换模型 |
| QClaw | 系统提示词拦截不仅直接拒绝,还主动提示可替代的正当请求方式 |
| ArkClaw | 云电脑可视化展示让用户可观察 Agent 在云端的操作过程,是云端 Agent 独特的透明度实践 |
| Hermes(开源) | "模型根据用户使用习惯持续微调"的自进化机制,是商业产品目前尚未普遍涉及的方向 |
本报告中所有评分、评语、截图的原始记录,保存在两个交互式工作台中(需本地环境运行,不在本次分享范围内):
| 维度 | 权重 | 评估要点(简) |
|---|---|---|
| IM 渠道支持 | 20% | 原生支持的消息平台、配置便利度、稳定性 |
| 任务完成度 & 本地文件 | 25% | 执行标准任务的成功率、文件增删改查能力 |
| 可选模型与切换便利度 | 20% | 支持模型数量、切换成本、用户自配 API 可能性 |
| 24 小时在线 / 定时任务 | 10% | Agent 能否原生创建定时任务、关闭后是否执行 |
| 技能生态与可扩展性 | 10% | 技能市场开放度、安装难度、数量规模 |
| 人格与角色配置 | 10% | 默认人设、自定义能力、记忆偏好维护 |
| 安全与隐私保护 | 5% | 权限控制、敏感操作确认、数据主权 |
报告时间:2026-04-21
数据源:实测工作台原始数据 + 各产品官方文档 + 第三方媒体报道交叉验证
说明:本报告为内部参考材料。评分为单人主观判断,仅代表研究时点情况,建议优先参考各产品的文字观察。