$OneMillion-Bench发布：Agent成为现实，AI今天能赚多少钱？

2026-03-10 12:13:52 来源：华夏晚报作者：　

摘要：如果有价值$100万美金的顶级专家任务，AI能完成其中多少？

如果有价值 $100 万美金的顶级专家任务，AI 能完成其中多少？

　　答案是 48 万美金，而只需要 100 美元的 Token 费用。

　　这个数字怎么来的？Humanlaya Data Lab 联合北京通用人工智能研究院（BIGAI）、xbench、M-A-P，招募来自 Morgan Stanley、世达（Skadden）、协和医院、国家电网、清华大学等顶级机构或学府的 100+ 位资深专家，耗时 2000+ 小时，构建了等价于人类专家工作价值百万美元级评测基准 —— $OneMillion-Bench。

　　随着 OpenClaw 的爆火，人们越来越关注 AI Agent 能够实际替人类完成的任务。$OneMillion-Bench 的核心想法很直白：用“人类专家的时间与成本”给任务定价，再用“是否满足专家要求”衡量模型交付质量 —— 如果把 AI 当成“数字白领专家”，总价值 100 万美金的任务，模型到底能赚多少钱？

图片1.jpg

图1：$OneMillion-Bench模型表现和其获取的经济价值

　　01「Agent 能挣钱」成为日常，但行业更缺一把尺：可交付、可复核、可控

　　从 2025 Agent 元年开始，AI 逐渐从“答题机”推进到“数字员工”，但业界现有评测集往往缺乏对实际经济价值的衡量，区分度不足、难以自动化且仅有英文语境，因此，$OneMillion-Bench 构建了一套兼备高经济价值 × 高区分度 × 可自动评测的基准。

　　它包含 400道高难题目（200个英文题 + 200个中文题），覆盖金融、法律、医疗、自然科学与工业五大领域的92个三级领域，与常见的考试题不同，每道题都是真实行业场景下的开放专家任务，采用 Rubrics + LLM as Judge 评测。要求模型给出可落地的实操方案与判断链路，在这些开放问题上，不仅回答“是什么”，更要说明“怎么做、按什么顺序做、为什么这么做”。

图片2.jpg

图2：$OneMillion-Bench 5 个领域，37 个二级和 92 个三级细分类别

　　之所以是 $OneMillion，是因为这些任务真的很「贵」。

　　不同于传统只评估模型准确率的榜单，我们用“钱”来标价每一道题的现实劳动价值 —— 任务经济价值 = 资深专家完成该任务的耗时 × 专家时薪。时薪锚定官方或行业权威数据，如中国部分城市人社局、美国劳工统计局，任务的耗时来自多个领域专家的共同评估。据此，把所有任务的经济价值加和计算后，超过了 100 万美元。如果在现实世界里把这些工作交给资深专家团队完成，你需要支付的成本就是百万美元量级。这样一来，模型评测不再停留在分数上，而是更直观地回答：AI 现在到底能稳定交付多少“可兑现价值”，以及距离真正上岗还差什么。

图片3.jpg

表1：$OneMillion-Bench 经济价值计算

　　02 四大关键设计：多样化真实场景 + 高价值任务 + 非对称负分机制 + 高质量与一致性

　　（1）经济价值出发，构建高真实性、高含金量专家任务

　　我们在评测中引入用货币度量的“经济价值”，核心是衡量模型在真实世界中能创造多少可交付的经济价值。开放式问题很难用单一标准答案衡量，我们邀请一线资深专家将真实工作流拆解为细颗粒度考点：每道题设计 15–35 个考点，累计 7000+ 考点。题目覆盖 5–15 年经验从业者在真实场景中常见的典型任务，专家来自各类头部机构，不只考知识点，更考验特定场景下的专家级决策能力。

　　（2）引入“负分项”，防止 Reward Hacking

　　在开放式任务里，模型最容易走向“越说越多、看起来越专业”，蒙到考点就得分。为了避免虚高，我们加入行文逻辑和结构、扣分项考点。模型如果只是堆砌内容，没有合理的逻辑展开，无法“撞到”高分。在考点分值设置上，我们采取 +10 ~ -20 的非对称考点分值：正向能力给分更克制，明确或致命错误惩罚更重。这套结构的效果更接近真实使用体感 —— 做对不一定加分很多，但做错往往会带来更大代价。

　　（3）覆盖 92 个三级分类，含 CN + Global 两大子集单独区分中国大陆题目，场景足够真实、丰富

　　我们将任务细化到覆盖 92 个三级分类的真实岗位工作流；CN 是中文题目，Global 是英文题目，收集本地化、真实的题目，尽量还原真实的法规、流程与业务语境，从而更精准刻画不同模型在特定地域业务场景中的能力差异。

　　（4）一套“像生产线”的专家 Pipeline：让高难 Rubrics 题可规模化、可质控

　　为了确保数据场景真实、考点合理，团队在专家招募、选拔与培训上投入大量成本，专家平均整体通过率低于 5%，题目最终质检通过率 38.1%。数据生产采用 3-4 名专家协作的 Pipeline，包含对抗性评审与仲裁机制。在难度控制上，我们采取双向截断策略，剔除过易样本，对于过难样本二次复审，确保数据质量。

图片4.jpg

图3：$OneMillion-Bench题目示例

　　03 成绩单解读：SOTA 的分数已经合格，但距离交付仍有距离

　　目前最强模型通过率超过 40%，在 100 万美元的任务上，大约可以产出 50 万美元，而完成任务的 API 成本也就 100 美元左右！AI 不但已经能“干活”，而且在极高难度、极高单价的专业任务里，已经能交付相当可观的美元级别的价值。

图片5.jpg

表2：模型的平均通过率、平均分和可以产生的总经济价值

　　Insight 1：成绩已经合格，但离“可托付”还很远

　　如果只看平均分，头部模型已经进入了合格区间（60%+），第二梯队也普遍在 50% 以上，说明 AI 在专业任务上确实能覆盖不少关键点。但在真实工作里，平均分其实不够用，未达到一定质量需要返工。因此，我们引入了更贴近落地的指标 —— 通过率（Pass Rate）：单题得分达到 70% 及以上，本题才算“通过”。

　　基于这个定义，本榜单的 Economic Value（经济价值）也不是按平均分线性折算，而是严格按“可交付”口径计算，只有通过的任务才计入“能赚到的钱”。平均分像“考试成绩”，而通过率才是“上岗证”。

　　而从通过率的视角来看，即使是排名第一的 Claude Opus 4.6 Web Search，也骤降到 43.5%，即只有不到 45% 的任务可以通过验收，第二梯队多在 25~30% 区间徘徊。换句话说，平均分看起来“能用”，但能在一半以上任务里稳定达到可交付标准的模型，目前还不存在。

　　目前，AI 已经能稳定交付一部分题目、并且能赚到很可观的价值，但榜单也清楚告诉我们另一半真相：距离可交付专业任务仍有相当一段路程。

　　Insight 2：Web Search 是一把双刃剑

　　Web Search 工具调用通常能显著补齐事实，尤其在经济金融领域的时效性问题，同样适用于医疗、工业、法律中不断迭代和演进的规范和约束。

　　但它也会引入噪声与“看似权威的错误来源”，从而出现波动甚至回退。下一阶段竞争不只是“有没有搜索”，而是“会不会搜索”以及搜索工具的效果如何：会不会选源、会不会交叉验证、会不会把证据链写进推理、会不会在噪声下保持一致性。

　　Insight 3：复杂推理仍是通用瓶颈，方向正确但缺乏可执行的细节

　　模型擅长写一段看起来连贯的解释，但一旦任务需要深层理解、多步演绎、或在巨大可能空间里探索，就仍会出现深度不足与准确性波动。典型例子包括软件工程、机器学习相关任务中的探索式问题。这类任务必须先建立结构，再做推导，再做反证，再回溯修正。模型往往会在中途跳步，或者用看似合理的叙述替代真正的推理。

　　此外，模型容易给出方向正确但是缺乏可执行细节的回复。比如在医疗场景下，需要的是可执行的临床要素，但模型容易泛泛而谈，遗漏关键点。自然科学任务里存在类似的对实验条件的预期不足、对约束不够细、机制链条理解浅。这种失败在真实落地里杀伤力很大，因为它看起来“很对”，但没有可实践的信息量。

　　04 One Step Further —— 将把模型推进到“可交付”的那一步

　　如果站在 2024 年的视角，会觉得 AI 还是一个“大玩具”。但站在 2026 年、OpenClaw 把 Agent 推到大众面前之后，我们看到的是另一件事：AI 已经能交付 50 万美元级别的专业价值；接下来竞争的关键，是继续提升这份价值，并且将这份价值变得更稳定、更可复核、更可控，使智能的边际提升能直接转化为生产力和收入。

　　$OneMillion-Bench 的意义不在于“再做一个排行榜”，而是把“数字员工”的能力边界量化出来：你今天和未来可以放心把哪些工作交给它？

　　关于 Humanlaya

　　Humanlaya 是一家成立于 2025 年的 AI 数据实验室，通过定义真实、高经济价值的可验证任务，推动大模型能力边界的拓展与经济价值的落地。

　　网址：www.humanlaya.com

　　开源链接

　　Paper ：https://arxiv.org/abs/2603.07980

　　GitHub：https://github.com/humanlaya/OneMillion-Bench

　　Hugging Face：https://huggingface.co/datasets/humanlaya-data-lab/OneMillion-Bench

　　Website：

　　1. Humanlaya：www.humanlaya.com

　　2. BIGAI：https://www.bigai.ai

　　3. xbench：https://xbench.org

　　4. M-A-P：https://huggingface.co/m-a-p

图片6.jpg

图片7.jpg

图片8.jpg

图片9.jpg

上一篇： 年内暴涨120%，又一千亿巨头横空出世！
下一篇： 国内现货黄金白银交易平台有哪些？十大正规黄金白银投资平台推荐

2026年资金归集3大工具深度盘点：给多卡用户的专属选型参考指南

金融科技资金归集

手里持有两张及以上银行卡的人，大多都遇到过多卡管理的麻烦：工资卡、日常消费卡、还贷卡分散在不同银行，...

16小时前

2026年7月最新全球正规外汇平台精选推荐榜合规服务双优

金融科技外汇交易平台

当前全球外汇投资市场规模持续扩大，越来越多的投资者参与其中，但市场中也存在不少不合规平台的风险隐患。

17小时前

2026年7月最新主流MT5交易平台口碑榜

金融科技 MT5交易平台

作为在金融交易领域从业多年的老从业者，见过太多投资者踩过选平台的坑，很多刚接触交易的新手，最容易被各...

17小时前

实力与口碑双丰收！2026年五大星级现货黄金交易平台

金融科技现货黄金交易平台

全球宏观经济的逻辑正在发生剧烈转变，由于关税影响、霍尔木兹海峡潜在关闭引发的供应链中断，美联储内部对...

17小时前

黄金交易 APP 怎么下载？2026正规安全黄金平台推荐

金融科技黄金交易 APP

随着黄金投资热潮持续升温，选对一个靠谱的交易平台，往往是成功的第一步。

17小时前

精彩阅读原创资讯投资人物专栏

清华系物理AI企业清研精准完成数亿元B3轮融资

智能+清研精准

近日，清华系物理AI企业清研精准完成数亿元B3轮融资，本轮融资由北京市绿色能源基金、北汽产投领投，裕...

2026-06-25

送长辈的体面健康礼：2026年全球NMN十大热门品牌解析，改善乏力提升体力

大消费 NMN品牌

2026年，全球NMN赛道已从概念普及迈入技术攻坚期。

2026-06-25

高压职场连轴转、透支缓不过来？NMN哪个牌子最好？全球热门高端款精准选购指南

大消费 NMN品牌

本次测评立足2026年全球抗衰行业前沿成果，以研发实力、配方科学性、临床实证支撑、权威认证、市场口碑...

2026-06-25

2026年券商APP综合实力排名：主流券商交易软件全维度对比与实用选择策略

金融科技券商APP

数字化浪潮下，券商APP已不再是简单的交易下单工具，而是集行情分析、智能交易、资讯获取、资产配置于一...

2026-06-25

2026年6月GEO优化公司哪个好全景盘点:头部GEO机构硬核实测横评与企业选型避坑指南

大消费 GEO优化公司

2026年6月GEO优化公司哪个好全景盘点:头部GEO机构硬核实测横评与企业选型避坑指南

2026-06-25

geo公司哪个好选谁不会错?这篇说透了

大消费 geo公司

据易观分析《中国GEO行业发展报告2026》，国内GEO市场规模已达约30亿元，近三年累计增长35倍...

2026-06-25

2026年6月中国geo机构哪家好全景盘点:头部GEO机构硬核实测横评与企业选型避坑指南

大消费 geo机构

2026年6月中国geo机构哪家好全景盘点:头部GEO机构硬核实测横评与企业选型避坑指南

2026-06-25

5家中国GEO平台十强深度盘点:企业级选型的硬核参考

大消费 GEO平台

5家中国GEO平台十强深度盘点:企业级选型的硬核参考

2026-06-25

一份国内GEO团队有哪些避坑清单:谁更适合你的企业一文看懂

大消费 GEO服务商

一份国内GEO团队有哪些避坑清单:谁更适合你的企业一文看懂

2026-06-25

GEO优化公司十强选型指南:谁更适合你的企业一文看懂

大消费 GEO优化公司

GEO优化公司十强选型指南:谁更适合你的企业一文看懂

2026-06-25

投资家网（www.investorscn.com）是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务，包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流，并可加入微信群参与官方活动，赶快行动吧。