AI 自动化2026-05-19

Open Agent Leaderboard 为什么值得看

Open Agent Leaderboard 用六类真实任务衡量整套代理系统，提醒团队别再只看模型榜。

Hugging Face 与 IBM Research 在 2026 年 5 月 18 日发布了 The Open Agent Leaderboard。这条热点真正值得看的点，不是“又多了一个 leaderboard”，而是它把被很多团队故意忽略的一件事摆到台面上：当你部署一个代理时，你选的不是一个模型，而是一整套系统，包括工具、规划方式、记忆、错误恢复和成本结构。

这和我们前几天写过的 Artificial Analysis 编程代理基准为什么值得看有相邻之处，但不是同一件事。前者更像“怎么读 coding agent 基准”，后者更像“怎么比较通用代理系统本身”。如果你正在比较 Claude、ChatGPT 或 Cursor 这样的入口，这条新闻的价值恰恰在于提醒你：别把模型名当成代理系统的全部。

这次到底发布了什么

官方博客把产品边界写得很清楚：

这是一个比较 full agent systems 的开放评测，不只比较模型。
它同时报告质量和成本，而不是只给分数。
配套公开了 leaderboard、Exgentic 复现实验框架，以及完整 methodology / paper。
评测覆盖 6 个 benchmark，面向 coding、customer service、technical support、personal assistance、research 等不同任务环境。

六类任务到底在测什么

这和常见模型榜最大的不同，是评测对象发生了变化。很多榜单默认把“模型”当成唯一被比较的主体，但 Open Agent Leaderboard 直接说，真正被部署的是整套代理系统。换句话说，同一个底层模型，外面包的工具策略、记忆结构和动作选择方式不同，最后的结果和账单都会变。

为什么这比“又一个总榜”更重要

官方在“怎么读排行榜”部分给了一个非常直接的例子：当前前 3 名使用的是同一个模型，但分数和成本仍然不同，因为包在外面的 agent system 不同。这个观察对站内用户非常关键，因为很多现实里的采购或试点会偷懒，把问题简化成“哪个模型最好”。但当代理真的接工作时，模型只解释了一部分差异。

更有用的是后面的几个发现：

官方说 general-purpose agents 已经在多个 benchmark 上接近甚至超过专门为单任务调过的系统。
失败方式同样重要。官方实验里，failed runs 比 successful ones 贵 20%-54%。
tool shortlisting 这种看起来不花哨的架构改动，在所有被测模型上都带来了性能改进，甚至把原本会失败的配置拉回到可用状态。

为什么失败成本也要进选型表

这比“榜一是谁”更重要，因为它直接影响真实部署。团队不是拿排行榜当海报，而是要为一次次成功和失败买单。一个代理即使成功率看起来不错，但如果失败时会拖很久、烧很多 token、跑出很贵的账单，它在生产环境里未必是好选择。

对普通团队最实际的启发

这条新闻最值得抄的不是分数，而是比较方法。以后看代理评测，至少要分开看四件事：

测的是模型，还是整套代理系统。
成功率之外，有没有把失败成本和运行成本一起公开。
benchmark 是不是覆盖了你真实会交给代理的任务类型。
架构层改动有没有被单独暴露出来，而不是全都被模型名掩盖。

这也解释了为什么这篇文章不把 relatedTools 挂成一串模型名。它精确挂到 claude、chatgpt、cursor，因为站内用户通常是从具体工作入口出发在做判断：我是该继续深用一个通用代理工作台，还是该换一个更像工程系统的入口？

如果你是开发团队，可以把这条新闻和 AlphaEvolve 为什么值得 AI 编程工具用户关注一起看。前者强调“目标函数 + 评估器 + 候选搜索”，后者强调“整套 agent system 才是真正被部署的对象”。两者合在一起，其实在说明同一件事：AI 代理的下一阶段，不是更会聊天，而是更会在不同环境里稳定做事，而且你能量化它的代价。