人机协同优化对 RAG 性能的必要性及作用

07/11/2024

RAG 概述

检索增强生成 (RAG) 是一种通过整合外部知识来增强语言模型生成的技术。这通常是通过从大量文档中检索相关信息并使用该信息来指导生成过程来实现的。

提高 RAG 系统的性能对 AI 开发人员来说是一项巨大的挑战。评估和优化任务通常需要大量的反复试验,而这只能提供有限的信息来了解复杂的底层过程。

‍有没有更有效的方法来提升 RAG 系统的性能?在探索潜在解决方案之前,让我们先看看 RAG 系统的核心组件,并了解为什么它们成为特定领域生成式 AI 项目的首选。

在 RAG 系统中集成人机交互是必需的,而不是一种选择。原因如下:

6661f035d7b84bd6e700bf63_Expert-Human-Intervention-chart.png

摄取过程

分块是将提示和文档划分为更小、更易于管理的片段(称为块)的过程。这些片段可以根据固定维度(例如字符数、句子数或段落数)进行划分。在 RAG 系统中,每个块都会转换为嵌入向量,然后用于检索。优化这些块的大小至关重要:更小、更精确的块可以使用户的查询与检索到的内容更好地匹配,同时仍允许系统在全面覆盖和精确检索之间取得适当的平衡。

查询流程

RAG 查询过程从初始提示开始,然后由重写器对其进行改进,以澄清意图或改进和修改其格式。接下来,更新后的提示被传递给检索器,检索器从语料库中提取相关的信息块。然后,重排器对这些块进行优先排序,以确定最相关的块。最后,排名靠前的块经过 LLM 推理,以合成并生成连贯且与上下文相关的响应。这个端到端的过程确保最终输出是对用户查询的直接回答,并针对准确性和相关性进行了优化。

为什么 RAG + 人类 = 更高性能的 AI 应用程序

通过人工监督,可以纠正数据中的错误,并确保检索到的信息的相关性,从而提供更准确、更符合语境的响应。人工反馈还可以实现自适应学习,使模型能够动态调整以适应复杂的数据场景,并通过持续改进不断改进。

Appen 的 AI 数据平台通过实现数据科学和工程团队以及业务领域专家 (SME) 之间的无缝协作,显著增强了这一流程。我们的平台支持高质量 AI 训练数据的收集、准备、清理、注释和优化,这对于定制高性能 RAG 模型至关重要。

人类改善 RAG 结果的方法

挑战描述
1 - 数据缺乏结构或清晰格式如果没有清晰的格式,识别数据中有意义的片段或块就会变得很困难。
2 - 缺乏必要的上下文元数据如果没有上下文线索来指导分块,那么在分块中包含不相关信息的可能性就会更高,从而增加检索过程中的噪音。在没有上下文线索的情况下,分块边界可能会被任意定义,这可能会导致分块选择不准确。这可能会导致分块太大,包含不相关信息,或者太小,缺乏足够的上下文来进行有意义的检索。
3 - 数据过期或有冲突如果没有质量保证/质量控制机制来确保进入向量存储的内容是最新且准确的,则生成的 RAG 系统可能会被无效上下文误导。通过构建工作流程,让内部 SME 可以在知识库内容进入向量存储之前对其进行审查和验证,组织可以确保其 RAG 应用程序在生成响应时具有可靠的上下文。
4 - 数据分段或粒度问题根据字符数或句子分隔进行分块可能无法有效地捕捉语义上下文,从而导致用户查询和检索到的内容不匹配。
5 - 缺失数据有效的 RAG 系统依赖于全面的数据。当数据缺失时,系统可能无法检索相关信息,从而导致答案不完整或不令人满意。为了缓解这种情况,应实施定期数据审核和更新。此外,可以设计回退机制,以便在检测到数据缺口时提示人工干预。
6 - 及时发现质量问题在对 RAG 系统进行端到端评估时,重要的是要测试的提示具有高质量,并且包含足够的广度以涵盖预期会遇到的各种真实用户行为。要实现此领域的质量,需要人类 SME 参与其中,他们了解知识库内容并对可能的使用边缘情况有直觉。
7 - 重写提示质量问题为了满足系统期望而重写的提示可能并不总是能够捕捉到用户的原始意图。这可能会导致响应虽然在语法上正确,但在语义上不一致。重写过程中的人为监督可以确保提示符合用户的意图,从而保持系统的有效性。
8 - 缺少排名靠前的区块有时,排名算法不会显示最相关的数据块。这可能是由于算法问题或数据空白造成的。人工参与排名算法的迭代改进可以确保不会遗漏排名靠前的块,从而提高响应的准确性。
9 - 重新排名的有效性重新排序机制对于确保首先呈现最佳数据块至关重要。如果重新排序算法无法有效地对相关数据进行优先排序,响应质量就会下降。人工分析师可以根据绩效评估调整重新排序算法,以增强数据块的选择。
10 - 响应偏离已建立的护栏偏离既定护栏的回应可能会导致错误信息或不当内容的传播。人类可以通过定期审查回应并向系统提供纠正反馈来执行护栏,以防止此类偏差。
11 - 响应中数据块的利用不准确如果 RAG 系统错误地使用数据块,它可能会提供与上下文无关或事实错误的响应。人工监督可以通过改进检索算法和提供有针对性的训练数据来确保系统正确解释和利用数据块。
12 - 回应风格和语气不一致RAG 系统应保持一致的风格和语调,以满足用户的期望。但是,数据的变化可能会导致不一致。人工干预可以通过编辑和整理反映所需语调的训练数据集来引导系统走向标准化的响应风格。
13 - 特异性不正确过于模糊或过于详细的回答都会影响用户体验。人类可以通过调整系统参数来更好地匹配所需的详细程度,并在数据中添加注释来强调特异性的重要性,从而提高特异性。

结论

人工监督对于优化 RAG 系统至关重要,可确保系统准确解决用户查询并保持最新、相关的响应。通过专家管理数据输入和持续更新,这些系统可以有效地处理复杂的现实需求。Appen 的 AI 数据平台在此过程中发挥着关键作用,提供细致的数据处理 - 收集、清理、注释和优化。这个强大的平台可帮助企业应对数据不一致和信息过时等挑战,从而创建精确、可靠且具有情境感知能力的 AI 应用程序。因此,Appen 是那些准备在快速发展的 AI 领域最大限度地利用内部数据资源的企业的首选合作伙伴。

准备好充分利用 RAG 和 Appen 的专业知识了吗?请联系我们进行咨询,亲身体验差异。

澳鹏支持全栈式大模型数据服务,包括数据集,模型评估,模型调优;同时,澳鹏智能大模型开发平台与全套标注工具支持您快速部署大模型应用。