干货分享 | 什么是大模型思维链?
LLM 推理:现代 AI 的挑战
大语言模型 (LLM) 凭借其在各个领域理解和生成类人文本的非凡能力,席卷全球,势不可挡。这些功能强大的 AI 系统经过海量数据集的训练,能够执行回答问题、总结文档、写诗,甚至编写代码等各项任务。
然而,将一系列内容进行逻辑性整合并得出结论的逻辑推理能力,依旧是大语言模型的重要挑战。无论是应对问答,还是需要在任务中采集信息并据此做出明智决策,构建有充分依据的论据,将复杂任务化分解为更简单的子任务,都依赖大模型的逻辑推理能力。
对 LLM 的一致性和推理能力进行评估后发现,尽管专有模型通常优于通用模型,但无一能在一致性和推理这两方面持续获得高分(来源:Saxena 等人,2024 年)。因此,理解和提高LLM 的推理能力对于其持续发展和可靠使用至关重要。
思维链方法如何激发大型语言模型的推理能力
在学校,数学老师经常会分析解题过程来进行教学;在大模型训练中,清晰展示问题的逻辑推理过程,即思维链提示(Chain-of-thoughts),也有助于提高LLM的推理能力,并给出清晰明了的输出。
与标准微调中的数据单元对<问题,答案>相比,思维链提示内容由<问题,推理链,答案>的三元对组成。这种系统化方法通过展示分析思维的逻辑进程增强 LLM 的推理能力和准确性。
LLM 能够通过思维链展示清晰、连贯的思维过程,为模型的行为提供可解释的见解,简化微调过程。最近的一项研究表明,Google Research 团队发现,思维链数据集训练后的模型,对小学数学的解决准确率达到了57%,远远高于用基础问题&答案数据集训练出来的模型(18%)。思维链的重要性可见一斑。
如何利用思维链进行大模型训练?
思维链提示有多种方法,主要可以分为使用提示工程,或者使用微调方式进行这两种方法。
思维链提示工程(Chain-of-thoughts Prompting)可以由简单的一句“请一步一步进行推理并给出解决方案”进行(Zero-Shot-CoT),也可以在Prompt中给出一步一步的推理分析过程(Few-Shot-CoT),引导模型进行学习。
同时,监督微调(Supervised Fine-Tuning)也是利用思维链提高模型推理能力的一种重要方法。
监督微调是一种通过在预标注数据集上训练现有模型优化大型语言模型的有效方法。这种方法非常适合对模型进行推理能力训练,因为三元对数据(问题,推理链,答案)构成的多组数据可以为模型复现推理链提供更多参考,更高效地提高模型的推理能力。同时,经过检查的思维链数据集可以规避许多开放提示工程训练中会产生的问题。
下面,让我们详细讨论一下三个思维链训练中容易出现的问题:
思维链训练中的三大挑战
挑战1:缺乏外部知识——幻觉
问题:语言模型使用静态的内部智能生成不基于外部知识的 CoT。这可能导致在推理过程中出现幻觉。
解决方案:为克服这一挑战,ReAct 提示策略在决策任务中将言语“推理”与交互式“行动”相互协同。这种方式借由查询外部资源来使该信息纳入推理过程。ReAct 提示有助于模型基于现实世界知识进行推理,从而降低出现幻觉的可能性并提高最终答案的准确性。
挑战2:复杂推理的精确度较低
问题:研究还表明,标准 CoT 提示在复杂任务上的准确性较低,如符号推理,和需要多个推理步骤的进阶数学问题等。
解决方案:受教育心理学的启发,”以小见大“提示词技术(Least-to-Most Prompting,LtM Prompting)将复杂问题分解多个子问题,然后依次解决。通过分而治之的思想,将复杂问题拆解为若干个序贯的子问题来求解,帮助模型更有效地解决复杂问题,提高整体准确性和推理能力。实验表明,最少到最多提示法(LtM Prompting)优于标准 CoT 提示,在处理需要至少 5 个步骤解决的问题时尤是如此。
挑战3:大模型推理中的易错点
问题:尽管 CoT 能够捕获思维的逻辑进程,但输出结果仍可能会产生幻觉,例如步骤不正确或缺失、逻辑有缺陷和计算不准确。
例如,我们从澳鹏的 HGMR 数学数据集中挑选一个问题(详见澳鹏思维链白皮书中案例部分),并通过 AWS Bedrock 将其发送给 Titan 和 Llama 2。两个模型的输出都未给出正确答案。在 Titan 的回答中,从第 2 步开始出现推理错误,错误地假设两个不同距离所花费的时间相等。同样,Llama 2 的回答在最后几步也存在错误,错误地将总距离设置为 x 而不是 2x,导致最终答案不正确。
解决方案:本例表明,解释和预测分步思维的能力有待进一步提高。这些错误很多情况下,需要人机协同来进行分析和纠正,以确保大模型的推理每一步都准确和正确。
澳鹏的思维链数据解决方案
随着寻找现成可用数据(无版权、高质量、与用户使用场景相关等)的难度日益加大,转向专业公司定制符合需要的数据集成为加速 AI 发展的另一条可行之路。澳鹏在为科技公司及其多样化需求和行业使用场景(包括思维链推理)构建定制化的高质量数据集方面,已积累二十余年的丰富经验。
澳鹏为您的思维链训练提供全面的数据支持,包括微调数据集(即三元对数据,包含问题,推理链,答案),创建思维链提示,以及内容评分等,为您的模型推理能力提升进行闭环支持。联系我们,澳鹏专家会为您提供全面思维链数据咨询。
澳鹏支持全栈式大模型数据服务,包括数据集,模型评估,模型调优;同时,澳鹏智能大模型开发平台与全套标注工具支持您快速部署大模型应用。