DeepSeek的成功,真的抛弃了SFT吗?

近期,DeepSeek在AI领域备受关注,其出色的复杂逻辑推理能力令人印象深刻。有人声称,R1完全抛弃了传统监督学习(SFT)路线,纯靠强化学习就达到了与o1相当的水平。
然而,DeepSeek的成功真的完全抛弃了SFT,尤其是复杂领域的SFT了吗?我们将通过一个实际案例,深入探讨这一技术的应用与价值。
复杂领域的监督式微调
许多人认为DeepSeek带来的震撼是不需要做 SFT了(Supervised Fine-Tuning,有监督微调)——这点很值得讨论。事实上,DeepSeek并没有完全抛弃SFT,而是根据不同模型的需求进行了调整和优化。SFT在DeepSeek的模型训练中起到的作用包含:
- 提升模型在特定任务上的性能:例如,在DeepSeek-V3中,通过在多个领域的数据集上进行SFT,模型在教育、语言理解、问答等任务上的性能得到显著提升。
- 优化生成内容的风格和质量:在DeepSeek-V3的训练过程中,SFT阶段让模型接触到了大量高质量的语言表达示例,帮助模型学习到更优美的语言表达方式。
- 作为冷启动数据集的基础:在DeepSeek-R1模型中,SFT阶段生成的数据被用作冷启动数据集,经人工标注员优化,为后续强化学习提供基础,帮助模型在特定任务上更好地对齐人类偏好。
在今天分享的案例中,澳鹏Appen针对医疗、金融、代码等30+个专业领域的特定应用场景对模型进行微调,使其能够流畅处理思维链推理、复杂问答等任务。
目标
与澳鹏Appen合作,客户的目标很明确:通过在30多个复杂领域(如代数、微积分、博弈论、归纳和演绎推理、科学证据评估等)中创建以思维链推理风格编写的结构化“提示-响应对”,显著增强大语言模型(LLM)的推理能力。
挑战
如何在30+个不同的专业领域招募到足够合格的标注人员,是客户面临的一大挑战。与一般标注项目不同的是,每位标注者均需具备数学、商业、法律或推理等领域的专业知识和专长。
精准匹配能够有效构建复杂逻辑推理能力的提示与响应的人员,是项目成功的关键。这些人员需要确保数据的持续高质量,以满足监督式微调的需求。
解决
为提高模型的逻辑推理性能,澳鹏Appen团队开发了与特定范畴的逻辑推理相一致的不同提示(prompt),例如根本原因识别及后果评估。通过澳鹏Appen的富文本编辑器,标注者可使用表格、代码块、用于方程的LaTeX和各种文本输入格式,从而生成高质量数据,增强模型的推理能力。

提示(prompt)运用高级推理技能,要求模型通过清晰分解问题,并得出具有逻辑性的解决方案,不能省略推理步骤。响应(response)要遵循真实、清晰、语境等标准,并在需要时引用研究结果以保证事实的准确性。

成果
澳鹏Appen团队为模型提供了丰富的高质量推理提示与响应,显著提高客户LLM的逻辑推理能力,帮助其有效处理复杂的论点并进行演绎推理。与此同时,项目的成功促成了客户业务的进一步拓展。
澳鹏支持全栈式大模型数据服务,包括数据集,模型评估,模型调优;同时,澳鹏智能大模型开发平台与全套标注工具支持您快速部署大模型应用。