Cohere 如何为企业级模型扩展基于偏好的微调

07/24/2025

引言

在当今竞争激烈的人工智能市场中,让大语言模型(LLM)的性能与人类价值观保持一致是一项关键的差异化优势。然而,大规模应用人类反馈的同时,还要保证高质量的输入和低延迟,这带来了诸多挑战。为满足这一日益增长的需求,Cohere 打造了 PANDA Plus 项目 —— 一个用于偏好数据生成和奖励信号开发的计划,并与澳鹏(Appen)合作,以获取专业标注人员资源、支持实时模型反馈,同时为实验性和生产性微调提供以人为本的大语言模型训练数据。澳鹏为 PANDA Plus 实现了可扩展、高质量的数据生成和实时标注,助力 Cohere 改进其生成式大语言模型 Command。

关于 Cohere

Cohere 是领先的以安全为首要原则的企业级人工智能公司。他们打造尖端的人工智能模型和端到端解决方案,旨在解决现实世界中的商业问题。其旗舰生成式大语言模型系列名为 Command,专为安全的企业部署而优化。受监管行业的领先企业信赖 Cohere,将其用于面向客户和内部支持等场景,因此,该模型在从零售到银行业的多个领域中,生成有用、安全且与品牌定位一致的响应至关重要。要维持这一高标准,需要借助可靠的、与特定领域相关的人类反馈,进行持续的强化学习和微调。

为提升 Command 的性能,Cohere 开发了偏好标注数据获取加监督微调(SFT)项目,即 PANDA Plus。该项目通过收集结构化的人类偏好数据,并对优选响应进行编辑,以更好地符合 Command 的原则和用户指令,从而改善模型性能。Cohere 与澳鹏合作,在保证质量和适应性的同时,将这一系统扩展到实时模型中。

1. 项目目标

PANDA Plus 将实时模型评估和编辑整合到 Cohere 的训练循环中。每个任务都会向标注人员展示针对特定提示的两个模型补全内容,并要求他们:

  • 选择更有帮助或更贴合要求的响应
  • 可选地编辑补全内容,以更好地体现理想的模型行为
  • 提供理由和定性反馈
  • 完成监督微调的补全重写

Cohere 与澳鹏合作,旨在:

  • 确保有大语言模型经验的标注人员提供一致、高质量的标注
  • 利用澳鹏的实时交付系统,减少模型反馈的延迟
  • 支持动态的任务变体(例如,对话续写、开放式指令遵循)
  • 兼顾实验性和可投入生产的训练周期

2. 挑战

A. 寻找合格的标注人员

Cohere 需要熟悉大语言模型的标注人员,他们能提供高质量的数据并快速完成入职。澳鹏为 Cohere 提供了经过审核的 200 名美式英语标注人员资源库,优先选择有大语言模型 / RLHF(基于人类反馈的强化学习)经验的人员。

B. 质量优先于数量

与传统的标注流程不同,PANDA Plus 更注重处理时间和准确性,而非吞吐量。这需要调整激励机制,并管理标注人员的工作节奏,以优化出经过深思熟虑、符合上下文的编辑内容。

C. 实时反馈循环

PANDA Plus 需要与 Command 的 API 建立实时连接,使标注人员能够近乎实时地评估模型输出。澳鹏对其 AI 聊天反馈工具进行了调整,使其能与 PANDA Plus 对接,包括动态前言、提示路由和响应比较等功能。

D. 支持模型演进

Cohere 利用澳鹏生成的偏好数据对生产级模型进行微调,同时并行的 PANDA Plus 任务为持续的实验性变体提供数据支持。这要求澳鹏在模型检查点不断变化的情况下,保持标注的一致性,且不影响数据结构和质量。

3. 解决方案

第一步:专业标注人员渠道

澳鹏为 PANDA Plus 组建了一个符合领域要求的标注人员团队。标注人员接受了相关培训,以评估以下内容:

  • 有用性、安全性和语气
  • 对指令的遵循程度和与领域的相关性
  • 改进或升级的可能性

澳鹏的标注人员负责:

  • A/B 偏好排序
  • 多轮对话续写评分
  • 为工具和提示迭代提供自由形式的反馈
  • 复杂提示和前言的撰写
  • 为 “完美” 的监督微调输入重写补全内容

第二步:工具与实时交付

PANDA Plus 的工作流程通过澳鹏人工智能数据平台(ADAP)的定制部署来实现,其增强功能包括:

  • 与 Command 的推理端点直接集成
  • 多轮提示 / 响应工作流程
  • 用于排序、编辑和提供理由的结构化字段
  • 每周批量汇总和每日实时数据流

在 12 周内,澳鹏的标注人员累计投入了超过 2400 个专业工时,使 Command 的训练循环能够近乎实时地整合人类反馈。

4. 成果

高可信度的微调数据

PANDA Plus 的数据直接为 Command 模型提供支持,多次微调都利用了澳鹏收集的人类偏好信号。

支持实验性训练

除生产环境外,PANDA Plus 还支持研究级别的实验,为模型迭代提供长期价值。

标注人员留存与质量保障

在项目的 12 周期间,澳鹏维持了稳定的标注人员团队,确保在不同变体中保持稳定的标注行为和可预测的性能。

系统级影响

通过将实时模型交互、基于编辑的监督和群体反馈整合到 PANDA Plus 中,Cohere 改进了其对齐流程 —— 而澳鹏在将主观偏好转化为结构化人工智能训练数据方面发挥了关键作用。

结论

Cohere 与澳鹏在 PANDA Plus 项目上的合作,是企业级偏好训练的典范,包括:

  • 具备大语言模型背景的熟练标注人员
  • 用于实时反馈的定制工具
  • 结构化的编辑和理由说明
  • 同时整合研究和生产微调循环

随着前沿模型构建者寻求高效且负责任地扩展人类反馈,PANDA Plus 展示了数据合作如何在不牺牲控制、安全性或企业适用性的前提下,提升模型性能和对齐质量。