增强大模型的思维能力:思维链(Chain of Thoughts) & ReAct

01/19/2024

怎样才能让大模型“涌现”?如果你是一名AI大模型研发人员,这可能是你最近一直在思考的问题。

在大模型领域,“涌现”是指当模型突破某个规模时,性能显著提升并表现出让人意想不到的能力,就好像AI有了“人”的意识一样。强大的逻辑推理是大模型“智能涌现”的核心能力之一,而推理能力的关键,在于一个技术——思维链 (Chain of Thought / CoT)。

CoT和ReAct (Reason+Act) 是提示工程 (Prompt Engineering) 的两个重要概念,他们本质上都是在帮助大模型学习人类解决问题的思路和方法。

今天我们就来聊一聊澳鹏Appen如何帮助AI大模型训练这种“人”的能力。


CoT标注:突出思维链推理的标注

类GPT应用通常会在哪里“翻车”?——大多是数学算术题、逻辑思考题等。这类需要精确推理的问题,正是思维链能够重点解决的。

在大模型热潮的当下,高质量的思维链训练却比较稀少。CoT思维链训练离不开人工构建推理过程:将一系列中间的推理步骤进行描述,让大模型通过学习推理过程,在算数推理、常识推理、符号推理等任务中取得更加理想的结果。

澳鹏Appen思维链数据标注,针对给定的一段逻辑推理过程,可以分解出前提条件和结论,并论证逻辑的正确性。我们的标注工具提供针对原始文本的修改和打分机制,能够进一步解析每一段文本的细节属性。

cot1.png

下面是一个数学题的例子:

cot2.png

标注工具的标记内容适配各种不同的公式表达,可以在各种专业领域提供个性化的支持和扩展。

cot3.png

CoT对于复杂问题的性能增益很大,但是它依赖于给定的前提和信息,有时会输出流畅但不合逻辑的错误结果,就像在“一本正经地胡说八道”。

此时结合ReAct可以进一步帮助大模型提升能力。


ReAct标注:突出工具调用的标注

ReAct,Reason+Act,“行为”和“推理”的协同作用,就像人类能够学习新任务并做出决策和推理的过程。

最新研究表明,ReAct和CoT方法的结合是提升LLM推理能力并减少幻觉的最佳方法之一。ReAct框架允许大语言模型与外部工具交互来获得额外的信息,并得出更加可靠的返回。

澳鹏ReAct标注工具让人类标注员检查ReAct推理轨迹并做出少量手动编辑和标记,替换推理轨迹中的错误输出。事实核查、上下文一致性检查,以及调整工具调用过程中的错误使用等,可帮助模型调整其行为,简洁高效地解决任务。

如何将工具可视化地展示给标注员,加快他们对于API的理解?又如何在理解的基础上正确高效地进行标注?以下界面展示的是澳鹏ReAct工具调用的过程,我们内嵌的多模态编辑器可以对工具调用返回的JSON格式数据做结构化的展示。

cot4.png

澳鹏ReAct标注的工具定义悬浮窗口支持1万个以上的工具定义,帮助标注员快速查看和掌握工具的用途以及输入输出参数。

cot5.png

在构建ReAct数据标注模版的背后,离不开强大而灵活的澳鹏自定义模版引擎。


自定义模板:灵活的数据标注底座,赋能大模型千变万化的标注需求

澳鹏自定义模版引擎为多变的项目规则而生,具有高度灵活性,可以帮助项目经理在最快5分钟内根据标注需求适配出一个定制的标注模版,极大地降低了项目实施难度,对于NLP, 大语言模型等文本和多模态数据标注项目具有极高的友好性。

我们的模版引擎定义了一套类似HTML的模版语言,可以自定义标签并嵌入项目标注所需的数据字段,比如文本内容、图片地址、音频地址等。同时,默认集成常用的表单元素,如单选框、多选框、单行/多行文本输入框等,提供多样化的数据标注方式。

cot6.png

模版语言对于使用者有一定的网页编写技能要求,但我们也为特定场景预定义了大量元素标签。例如,大语言模型LLM对话类数据标注工具,仅仅需要一行就可以加载出一个多轮对话的标注页面。

cot7.png

根据输入的数据,展现的对话标注界面:

cot8.png

还可以实现NER类型的数据标注:

cot9.png

根据输入的数据进行界面展示:

cot10.png

澳鹏Appen自定义模板引擎还为更多复杂的标注场景预定义了模版标签,如音频标注、图像标注、视频标注、地图标注等。

如有兴趣,请联系我们,我们会为您安排专家讲解定制化配置,为您的大模型落地进行高效支持。

澳鹏智能 LLM 开发平台集大模型数据准备、训练、推理、部署应用于一体,提供数据生产、数据管理、模型管理以及计算资源管理等全栈管理产品,助力企业轻松拥抱大模型。