2025 年 6 月 18 日,红杉中国正式宣布开源其 AI 基准测试工具 xbench 的两大核心评测集 ——xbench-ScienceQA 与 xbench-DeepSearch。这一举措源于红杉将内部测评工具转化为行业公共资源的初衷,旨在通过公开透明的评估体系推动 AI 技术在真实场景中的效用提升。据悉,开源评测集采用 “黑白盒动态更新” 机制,既避免模型过拟合问题,又能持续适配大模型与 AI Agent 的迭代发展。

红杉中国开源 xbench 评测集:构建 AI 真实场景效用评估新基准
双评测集技术架构:从学科推理到深度搜索的能力解构
xbench-ScienceQA:攻克研究生级硬核学科挑战
该评测集由顶级院校博士与行业专家联合构建,题库包含 STEM 领域 8 大核心学科(数学、物理、化学等)的 100 道高难度题目,平均正确率仅 32%,其中 34% 的题目正确率低于 20%。其独特性体现在:
- 专业出题机制:通过 LLM 难度检验、搜索引擎查重、同行交叉验证三重审核,确保题目未被公开收录且具备区分度。例如计算机学科的 “单源最短路径算法复杂度” 题,需模型掌握 2023 年 FOCS 会议最新研究成果,多数模型因缺乏长尾知识答错。
- 题型创新设计:77% 为问答题,14% 为多选题,显著降低模型 “蒙对” 概率。如化学奥赛题要求判断四个选项的正确性,需全面掌握物质结构知识,单选项错误即得 0 分。
xbench-DeepSearch:Agent 深度搜索能力的 “压力测试”
针对 AI Agent 的规划 – 搜索 – 推理 – 总结端到端能力,该评测集填补了中文环境下深度搜索评估的空白:
- 场景化题目设计:题目需跨越多步搜索与推理,如 “尼米兹级航母下水期间有海军服役经历的总统平均服役时间”,模型需先确定航母下水时间范围,再筛选对应总统并计算服役年限,平均正确率 47%。
- 中文信源优化:相比英文主导的 BrowseComp,其地理、历史等主题题目更贴合中文互联网生态,如 “东北三省与外国接壤的地市级单位数量” 题,需模型分步查询三省行政区划并验证接壤关系。
评测体系革新:动态机制与行业价值共振
反刷榜设计:黑白盒联动确保评估公信力
红杉中国每月更新评测榜单,每季度迭代题库,并维护闭源黑盒版本。若开源榜单与黑盒测试排名差异显著,相关模型分数将被移除。这种机制有效避免了静态评测集被 “刷分” 的行业痛点,例如 ScienceQA 中某模型在开源题上正确率达 70%,但黑盒测试仅 40%,最终被取消排名。
产业落地导向:从学术评测到生产力验证
据 IMF 预测,2025-2030 年 AI 将年均拉动全球 GDP 增长 0.5%,而 xbench 的实用价值已获业界验证。某 AI 教育公司使用 ScienceQA 优化模型后,其 STEM 学科辅导准确率提升 22%;电商领域通过 DeepSearch 测试,使智能客服的复杂问题解决率从 35% 增至 58%。红杉表示,未来将推出垂直领域评测集 xbench-Profession,覆盖招聘、营销等场景。
例题解析:高难度场景下的模型能力透视
ScienceQA 典型题目:
计算机题:在图论单源最短路径问题中,是否存在比斐波那契堆优化 Dijkstra 更快的算法?
- 关键考点:需掌握 2023 年 FOCS 论文提出的随机算法,复杂度为 O (m√(log n)・log (log n)),多数模型仍回答传统 O (m+n log n) 而答错。
数学题:嵌套矩形定义的函数类 VC 维数是多少?
- 解题要点:突破经典矩形 VC 维数 4 的思维定式,通过二维坐标系构造 8 组打散数据点,正确答案为 8,模型平均正确率低于 20%。
DeepSearch 典型题目:
历史推理题:赵怀满夏田契记载的贞观十七年去世的唐朝名相有几个儿子?
- 推理链条:文物年份→魏徵去世→搜索魏徵子嗣数量,需跨越历史事件关联与人物细节查询,模型正确率约 33%。
开源生态共建:技术民主化的新范式
红杉中国开放三大开源渠道(官网、GitHub、Hugging Face),并邀请开发者通过 team@xbench.org 参与题库共建。当前 xbench-ScienceQA 已吸引 200 + 高校研究团队使用,DeepSearch 则被 15 家 AI Agent 公司作为核心测试工具。这种 “社区共创 + 动态进化” 的模式,正推动 AI 评估从学术竞赛向产业实用化转型 —— 正如红杉在声明中所言:“衡量 AI 的终极标准,不应是榜单分数,而是解决真实问题的能力。”
随着 xbench 评测集的持续迭代,其或将成为连接 AI 技术研发与产业落地的关键桥梁,为全球 AI 治理提供兼具技术深度与实用价值的 “中国方案”。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...