评分规则+微调:大模型评估的「黄金组合」

09/04/2025

大模型评估的"黄金组合"

在AI飞速进化的今天,两个看似传统的方法正成为大模型评估的关键密钥:监督微调(SFT)与评分规则评估(rubric-based evaluation)。它们如同教育的两面——一个耐心教导模型如何回应,一个精准评判模型的表现优劣。Old Is New Again?一起走进本期AppenTalk。

教学相长:SFT与评分规则的协同之道

监督微调通过人类编写的优质样本,教会模型生成理想回应;而评分规则评估则依托结构化标准(实用性、准确性、安全性等),对模型输出进行精准度量。二者的关系可概括为:SFT负责塑造模型能力,评分规则负责检验输出质量——一个执教鞭,一个执量尺。

澳鹏深耕AI领域近三十载,始终致力于将人类智慧系统化赋能于机器学习。我们从搜索相关性评估中积累的核心能力——定义质量标准、校准评审员、应用精细化评分规则,如今正全面应用于大语言模型评估领域。昔日的搜索相关性原则,如今已成为大模型输出评估的基石。 ——澳鹏Appen CEO Ryan Kolln

一脉相承:从搜索评估到生成式评分

现代搜索评估早已突破“相关/不相关”的二元判断,演进为涵盖意图识别、语境理解、可信度评估等多维体系。评审员们接受培训后,能够针对不同场景应用精细化评分规则——这与当前领先实验室评估大语言模型的方法如出一辙。

无论是评估聊天机器人的实用性,还是判断生成内容的事实准确性,基于评分规则的评估方式都与搜索相关性评估一脉相承:在明确指南的基础上,做出富含语境价值的主观判断。

实战案例:Cohere的偏好微调创新

我们与Cohere合作的PANDA Plus计划完美诠释了这种协同价值。为打造企业级大语言模型,Cohere需要高质量人类反馈来实时微调其Command模型。

澳鹏提供了资深专家标注团队和定制化实时反馈工具,通过以下方式助力其模型优化:

  • 执行模型回复的A/B对比测试
  • 进行基于指令的补全重写
  • 提供多维度的评分规则编辑

在12周内,澳鹏团队累计提供超过2400小时专家服务,为Cohere注入结构化偏好数据和针对性反馈,持续驱动模型优化循环。

澳鹏优势:规模化实现主观判断标准化

澳鹏之所以能够获得全球AI领军企业的长期信任,源于以下核心能力:

  • 设计符合用户预期的智能化评分规则体系
  • 通过黄金标准和实时反馈校准评估质量
  • 建立全流程质量监控和检测机制
  • 开发支持实时反馈的动态化工具平台

这些经过亿万次标注锤炼的机制,正成为Cohere等企业将人类智慧深度集成到大模型训练中的关键支撑。

在生成式AI浪潮中,澳鹏通过结构化微调数据塑造模型行为,借助多维评分规则衡量输出质量,持续推动大模型的精准进化。