Hugging Face 与 IBM Research 在 2026 年 5 月 18 日发布了 The Open Agent Leaderboard。这条热点真正值得看的点,不是“又多了一个 leaderboard”,而是它把被很多团队故意忽略的一件事摆到台面上:当你部署一个代理时,你选的不是一个模型,而是一整套系统,包括工具、规划方式、记忆、错误恢复和成本结构。
这和我们前几天写过的 Artificial Analysis 编程代理基准为什么值得看 有相邻之处,但不是同一件事。前者更像“怎么读 coding agent 基准”,后者更像“怎么比较通用代理系统本身”。如果你正在比较 Claude、ChatGPT 或 Cursor 这样的入口,这条新闻的价值恰恰在于提醒你:别把模型名当成代理系统的全部。
这次到底发布了什么
官方博客把产品边界写得很清楚:
- 这是一个比较 full agent systems 的开放评测,不只比较模型。
- 它同时报告质量和成本,而不是只给分数。
- 配套公开了 leaderboard、Exgentic 复现实验框架,以及完整 methodology / paper。
- 评测覆盖 6 个 benchmark,面向 coding、customer service、technical support、personal assistance、research 等不同任务环境。

这和常见模型榜最大的不同,是评测对象发生了变化。很多榜单默认把“模型”当成唯一被比较的主体,但 Open Agent Leaderboard 直接说,真正被部署的是整套代理系统。换句话说,同一个底层模型,外面包的工具策略、记忆结构和动作选择方式不同,最后的结果和账单都会变。
为什么这比“又一个总榜”更重要
官方在“怎么读排行榜”部分给了一个非常直接的例子:当前前 3 名使用的是同一个模型,但分数和成本仍然不同,因为包在外面的 agent system 不同。这个观察对站内用户非常关键,因为很多现实里的采购或试点会偷懒,把问题简化成“哪个模型最好”。但当代理真的接工作时,模型只解释了一部分差异。
更有用的是后面的几个发现:
- 官方说 general-purpose agents 已经在多个 benchmark 上接近甚至超过专门为单任务调过的系统。
- 失败方式同样重要。官方实验里,failed runs 比 successful ones 贵 20%-54%。
- tool shortlisting 这种看起来不花哨的架构改动,在所有被测模型上都带来了性能改进,甚至把原本会失败的配置拉回到可用状态。

这比“榜一是谁”更重要,因为它直接影响真实部署。团队不是拿排行榜当海报,而是要为一次次成功和失败买单。一个代理即使成功率看起来不错,但如果失败时会拖很久、烧很多 token、跑出很贵的账单,它在生产环境里未必是好选择。
对普通团队最实际的启发
这条新闻最值得抄的不是分数,而是比较方法。以后看代理评测,至少要分开看四件事:
- 测的是模型,还是整套代理系统。
- 成功率之外,有没有把失败成本和运行成本一起公开。
- benchmark 是不是覆盖了你真实会交给代理的任务类型。
- 架构层改动有没有被单独暴露出来,而不是全都被模型名掩盖。
这也解释了为什么这篇文章不把 relatedTools 挂成一串模型名。它精确挂到 claude、chatgpt、cursor,因为站内用户通常是从具体工作入口出发在做判断:我是该继续深用一个通用代理工作台,还是该换一个更像工程系统的入口?
如果你是开发团队,可以把这条新闻和 AlphaEvolve 为什么值得 AI 编程工具用户关注 一起看。前者强调“目标函数 + 评估器 + 候选搜索”,后者强调“整套 agent system 才是真正被部署的对象”。两者合在一起,其实在说明同一件事:AI 代理的下一阶段,不是更会聊天,而是更会在不同环境里稳定做事,而且你能量化它的代价。
现在最该怎么跟进
如果你是个人开发者,不要试图靠外部榜单直接替你做决定。更稳的做法是把自己的使用场景先拆出来,例如:
- 仓库内修 bug
- 跨网页和文档做调研
- 多工具串联的客服或运营动作
- 带审批点的长回路任务
然后再问:哪个外部 benchmark 最接近这些工作?哪些成本项我能接受?失败时要不要人工兜底?
如果你是团队负责人,可以直接把 Open Agent Leaderboard 变成一个内部评测模板:
- 先定义 2 到 3 类你真的想交给代理的工作。
- 给每类工作同时记录成功率、耗时、失败成本和人工接手频率。
- 用一套固定的 agent prompt / tools / memory 设置复跑,而不是每次手工调参。
- 只在你能复现的条件下比较不同代理入口。
这条新闻之所以值得今天发,不是因为它给了一个更热闹的榜,而是因为它把行业讨论从“谁更聪明”往“谁更值得部署”推进了一步。对本站用户来说,这比任何单次模型榜波动都更有长期价值。
参考来源:
- Hugging Face / IBM Research: The Open Agent Leaderboard
- Hugging Face: Open Agent Leaderboard





