评分规则+微调：大模型评估的「黄金组合」

09/04/2025

大模型评估的"黄金组合"

在AI飞速进化的今天，两个看似传统的方法正成为大模型评估的关键密钥：监督微调（SFT）与评分规则评估（rubric-based evaluation）。它们如同教育的两面——一个耐心教导模型如何回应，一个精准评判模型的表现优劣。Old Is New Again？一起走进本期AppenTalk。

教学相长：SFT与评分规则的协同之道

监督微调通过人类编写的优质样本，教会模型生成理想回应；而评分规则评估则依托结构化标准（实用性、准确性、安全性等），对模型输出进行精准度量。二者的关系可概括为：SFT负责塑造模型能力，评分规则负责检验输出质量——一个执教鞭，一个执量尺。

澳鹏深耕AI领域近三十载，始终致力于将人类智慧系统化赋能于机器学习。我们从搜索相关性评估中积累的核心能力——定义质量标准、校准评审员、应用精细化评分规则，如今正全面应用于大语言模型评估领域。昔日的搜索相关性原则，如今已成为大模型输出评估的基石。 ——澳鹏Appen CEO Ryan Kolln

现代搜索评估早已突破“相关/不相关”的二元判断，演进为涵盖意图识别、语境理解、可信度评估等多维体系。评审员们接受培训后，能够针对不同场景应用精细化评分规则——这与当前领先实验室评估大语言模型的方法如出一辙。

无论是评估聊天机器人的实用性，还是判断生成内容的事实准确性，基于评分规则的评估方式都与搜索相关性评估一脉相承：在明确指南的基础上，做出富含语境价值的主观判断。

我们与Cohere合作的PANDA Plus计划完美诠释了这种协同价值。为打造企业级大语言模型，Cohere需要高质量人类反馈来实时微调其Command模型。

澳鹏提供了资深专家标注团队和定制化实时反馈工具，通过以下方式助力其模型优化：

在12周内，澳鹏团队累计提供超过2400小时专家服务，为Cohere注入结构化偏好数据和针对性反馈，持续驱动模型优化循环。

澳鹏之所以能够获得全球AI领军企业的长期信任，源于以下核心能力：

这些经过亿万次标注锤炼的机制，正成为Cohere等企业将人类智慧深度集成到大模型训练中的关键支撑。

在生成式AI浪潮中，澳鹏通过结构化微调数据塑造模型行为，借助多维评分规则衡量输出质量，持续推动大模型的精准进化。