澳鹏电子书 | Rubric-based Evaluation:七维评分细则详解

"当检索到的内容主题相关但信息陈旧,或者事实准确却深度不足时,传统的相关性评分已无法区分这些差异。"
如今,由大语言模型驱动的搜索正迅速成为数十亿用户获取信息的主要方式。检索质量直接决定生成答案的上限。
然而,现有评测框架如RAG三元组(RAG Triad)存在明显局限:它将多个质量维度压缩在单一的“相关性”标签下,使得仅在细粒度层面才能识别的失败模式无法被发现。例如,检索片段可能在主题上完全相关,但信息深度不足或已过时。这些问题被一个笼统的“相关”分数所掩盖,导致检索团队无法定位根本原因。
研究表明,被评为相关的检索内容经常无法提供模型生成正确答案所需的充足上下文。相关性是评估检索质量的必要条件,但并非充分条件。
澳鹏全新推出白皮书:《基于Rubric的评估:提升LLM检索与搜索功能》(Rubric-Based Evaluations to Improve LLM Retrieval and Search Functionality)。本书系统阐述了一个多维评分细则框架,将检索质量分解为诊断上互不相同的维度,使团队能够隔离根本原因、划分改进优先级并跟踪各维度随时间推移的进展。
澳鹏方法论:七维评分细则——让检索失败模式可识别、可追踪
澳鹏的方法论将检索质量评估从二元的相关性判断,重新定义为结构化的诊断任务。评测者不再为每个检索片段分配一个笼统的相关性分数,而是从七个维度分别评估,每个维度对应检索流水线中一种特定的失败模式。
这七个维度包括:
混合评测架构:人机协同的复合反馈循环
纯自动化评测和纯粹人工评测在孤立状态下都不够完善。澳鹏部署了一套结合人机协同评审与基于大语言模型的自动化评测的混合架构。这套架构不寻求用机器替代人类判断,而是将人工评审精准配置在产生信号价值最高的地方。
基于LLM的自动化评测利用人工校准的基准对齐LLM评判器,随后将其部署到海量用户查询和检索片段的评估中,以更低的成本和更高的吞吐量接近人类判断水平。
人机协同评审在裁决低置信度案例和审计LLM评判器系统本身两个环节中至关重要。每个通过人工审计的循环都会产生校准数据,提高自动化评判器的可靠性,减少需要人工评审的案例量,并将专家资源集中在不确定性最高的案例上。
澳鹏实践
这套框架已在真实项目中经过验证。澳鹏为一家领先科技公司执行了覆盖三个市场(英语美国、英语印度、西班牙语墨西哥)的评分细则评测项目,截至目前共交付约79万次评测。细粒度的维度级诊断使客户能够发现检索差距,并据此实施针对性改进。
《基于Rubric的评估:提升LLM检索与搜索功能》
- 多维度评测框架:七个诊断维度,各自对应特定失败模式
- 混合评测架构:人机协同评审与自动化评估相结合,兼顾深度与规模
- 实战案例:约79万次评测交付,覆盖多市场多语言的落地经验

沪公网安备31011502401377号