新红杉中国开源 xbench 评测集:构建 AI 真实场景效用评估新基准2025 年 6 月 18 日,红杉中国正式宣布开源其 AI 基准测试工具 xbench 的两大核心评测集 ——xbench-ScienceQA 与 xbench-DeepSearch。这一举措源于红...AI新闻资讯# AI Agent评估# AI基准测试# xbench-DeepSearch01260