昆仑万维推出Skywork-Reward-V2:小模型也能挑战大模型的奖励模型新标杆

AI新闻资讯6天前发布 一丢
392 00
广告也精彩

近日,昆仑万维正式发布第二代奖励模型系列 Skywork-Reward-V2,这一系列模型以“小而强”为核心理念,通过创新的数据构建方法和高效的训练策略,在多个主流评测基准上全面超越现有开源模型,甚至在某些任务上挑战了70B级大模型的性能。这一成果不仅标志着奖励模型领域的技术突破,也为开源社区提供了更灵活、高效的工具,推动AI系统向更精准的人类偏好对齐迈进。

昆仑万维推出Skywork-Reward-V2:小模型也能挑战大模型的奖励模型新标杆

昆仑万维推出Skywork-Reward-V2:小模型也能挑战大模型的奖励模型新标杆


小模型也能“以小博大”:性能全面超越大模型

Skywork-Reward-V2系列基于Qwen3和LLaMA3系列模型训练,参数规模覆盖从 6亿到80亿 的8个版本。尽管最小的模型(Skywork-Reward-V2-Qwen3-0.6B)仅需不到1GB的显存,但其性能已接近上一代27B参数模型的平均水平。更令人瞩目的是,Skywork-Reward-V2-Qwen3-1.7B 在平均性能上超越了当前开源奖励模型的SOTA(State-of-the-Art)——INF-ORM-Llama3.1-70B,而最大规模的 Skywork-Reward-V2-Llama-3.1-8B 则在所有主流基准测试中实现全面领先。

这一突破的关键在于高质量数据的重要性远超模型规模。通过精心设计的“人机协同、两阶段迭代”数据筛选流程,团队构建了包含4000万对偏好样本的 Skywork-SynPref-40M 数据集,其中2600万对经过严格筛选。实验表明,仅使用其中1.8%(约29万条)的高质量数据训练的8B模型,其性能就已超过70B级模型,证明了数据质量对模型效果的决定性作用。


技术亮点:从数据到模型的全流程创新

  1. 人机协同的两阶段数据构建
    Skywork-Reward-V2的数据构建分为两个阶段:

    • 第一阶段:通过人工标注构建“金标准”数据集,作为模型训练的基准;
    • 第二阶段:利用大语言模型(LLM)进行自动化扩展,生成“银标准”数据,并通过多模型一致性机制过滤噪声。
      这一流程不仅显著降低了人工标注成本,还确保了数据的高质量和多样性,为模型训练提供了坚实基础。
  2. 多维人类偏好覆盖能力
    Skywork-Reward-V2系列在多个维度上展现了卓越的偏好理解能力:

    • 通用偏好对齐:在Reward Bench、RM-Bench等基准上全面领先,优于多个大模型;
    • 客观正确性:在JudgeBench和PPE Correctness等任务中,超越所有开源模型,接近闭源模型(如OpenAI的o系列);
    • 安全性与伦理判断:能识别隐私泄露风险并给予低分,同时抵抗风格偏见(RM-Bench);
    • 复杂指令处理:在Best-of-N任务中,能够从多个候选回复中精准选出最优解。
  3. 高效扩展性与实用性
    Skywork-Reward-V2的设计目标是“适用于广泛任务”。无论是对话生成、代码优化,还是安全合规性判断,该系列模型均表现出色。其轻量化的模型版本(如0.6B和1.7B)尤其适合资源受限的场景,为边缘设备或低功耗部署提供了可能性。

从奖励模型到AI基础设施的“指南针”

奖励模型(Reward Model)是强化学习与人类反馈(RLHF)的核心组件,直接影响AI系统的输出质量与对齐效果。Skywork-Reward-V2的推出不仅推动了开源奖励模型的发展,还为未来AI基础设施的构建提供了新思路。

昆仑万维团队指出,奖励模型不应仅被视为“正确性评估器”,而应成为智能系统在复杂环境中导航的“指南针”。通过统一的奖励框架,AI系统可以更高效地对齐人类价值观,同时适应多样化的任务需求。未来,团队计划进一步探索替代训练技术、建模目标等方向,推动奖励模型向更通用、更智能的方向发展。


开源赋能,加速技术普惠

Skywork-Reward-V2系列及其配套数据集 Skywork-SynPref-40M 已全面开源,用户可通过HuggingFaceGitHub平台获取:

Skywork-Reward-V2下载地址

HuggingFace地址:

https://huggingface.co/collections/Skywork/skywork-reward-v2-685cc86ce5d9c9e4be500c84

GitHub地址:

https://github.com/SkyworkAI/Skywork-Reward-V2

技术报告:

https://arxiv.org/abs/2507.01352

这一举措为全球研究者和开发者提供了低成本、高性能的工具,助力RLHF、RLVR(基于验证的强化学习)以及智能体学习等前沿领域的创新。据公开数据显示,Skywork-Reward系列模型在HuggingFace平台的累计下载量已超过75万次,成为开源社区的重要资源。


结语:小模型的崛起,大模型的启示

Skywork-Reward-V2的成功证明了“小模型+高质量数据”可以挑战传统大模型的霸主地位。这一成果不仅为奖励模型领域树立了新标杆,也为AI技术的普惠化提供了范例。未来,随着数据构建方法和训练策略的持续优化,我们或许会看到更多“以小博大”的创新案例,推动AI技术走向更高效、更可持续的发展路径。

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...