2026 年 5 月 15 日上线 arXiv 的 WildClawBench 不是那种“再多一个编程榜”的论文。它更像一记提醒:如果你真的在比较编程代理,评测对象不该只是模型,也不该只是 IDE 里的补全体验,而应该是 带着真实工具、真实长任务和真实代理壳一起跑的系统。项目的 GitHub README 直接把这个意图写得很清楚:60 个真实世界 long-horizon coding tasks,覆盖 6 大类任务,平均一题约 8 分钟、20 次以上工具调用,还把同一批任务放进 OpenHands、OpenCodeInterpreter、OpenCodeAgent 和 OpenClaw 四套 harness 里比较。
这件事对正在比较 Claude、Cursor 和 GitHub Copilot 的站内用户很重要。因为很多团队现在依然习惯问“哪个模型最强”,但 WildClawBench 给出的信号是:同一个模型换一个壳,结果就可能不是同一个产品。

这次真正更新了什么
WildClawBench 最值得看的,不只是分数,而是任务和环境设计:
- 评测不是纯 LeetCode、纯合成 bug,核心是 真实世界长任务。
- 任务跨了网页、终端、文档、邮件、日历等多种真实工具环境。
- 作者不仅测不同模型,还测 同题在不同 harness 里的结果差异。
- README 里直接给出一个很有杀伤力的结论:同一模型在不同 harness 上最高能拉开 18 分左右差距。
- 当前榜首只有 62.2% 左右,也就是说这类任务离“已经解决”还很远。
把这些放在一起看,它和我们站内已经写过的 Artificial Analysis 编程代理基准为什么值得看 很相邻,但不是同一件事。Artificial Analysis 更像在提醒你“要看总分、成本和速度”;WildClawBench 更像在提醒你“任务壳层和工具环境本身就是能力的一部分”。
为什么这比普通编程榜更重要
很多基准默认假设模型是主要变量,工具和壳层只是包装。但真实工作不是这样。一个代理要在项目里干活,往往要读网页、跑终端、看文档、收敛中间结果、再继续下一步。只要这些动作落在不同的 runtime、不同的工具挑选逻辑、不同的提示链和恢复策略上,表现就会变。
WildClawBench 最有价值的地方,正是它没有把这件事藏起来。相反,它把 harness 差异直接暴露出来,让你没法再偷懒地把“模型名”当成唯一解释变量。
这对团队特别重要,因为采购和试点时最容易踩的坑,就是把代理当成模型皮肤:底层模型差不多,就以为产品差不多。WildClawBench 的结果恰好在说反话:你真正部署的是一整套工作壳,而不是一个裸模型。
对普通团队最实际的启发
如果你是工程团队负责人,这篇论文最该抄的不是榜单截图,而是看榜方法。以后看编程代理评测,至少分开问四件事:
- 任务是不是接近你真的会交给代理的工作,而不是只会写一小段代码。
- 代理有没有被放进真实工具环境,而不是只在一个理想化沙箱里答题。
- 同一模型换不同 harness 后,结果波动有多大。
- 榜单有没有告诉你失败发生在哪一层,是模型理解、工具调用、恢复策略,还是长回环管理。
这也是为什么这篇文章的 relatedTools 不是乱挂一串热门模型,而是收束到 claude、cursor、github-copilot。站内用户真正要做的判断,通常不是“论文里提到哪个模型”,而是“我现在手里的编程入口,背后那套壳到底值不值得深用”。

现在更适合拿什么任务复跑
如果你想把 WildClawBench 变成实际决策输入,不要直接照搬论文的全部配置。更稳的做法是挑 3 类你团队最常见的长任务自己复跑:
- 跨网页、issue、文档和仓库的 bug 调查
- 需要终端命令、测试和中途回看的修复任务
- 涉及多文件和多步判断的重构或迁移任务
然后同步记录:成功率、平均耗时、失败时停在哪里、人工接手成本、以及同一模型换不同入口之后差异有多大。只有把这些数据跑到自己的任务上,WildClawBench 才会从“有意思的论文”变成“对采购和流程有用的证据”。
站内用户现在该怎么跟
如果你最近在看站内这些文章,WildClawBench 最适合和它们连起来读:
第一篇帮你读总榜和成本,第二篇帮你接受“被部署的是整套代理系统”,第三篇则提醒你长任务代理的协作面也在变。WildClawBench 把这三件事拧到一起:真实任务、真实工具、真实壳层。
这篇热点之所以值得今天发,不是因为它又给编程代理排了一次名,而是因为它把一个更难回避的问题摆到了台面上:以后比较 AI 编程工具时,你不能只比模型,必须把 harness 当成产品的一部分一起比。
参考来源:
- arXiv: WildClawBench
- GitHub: InternLM/WildClawBench





