大语言模型评估：人类反馈评估帮助大模型提升性能

09/21/2023

AI 生命周期高质量数据提供商澳鹏近期宣布推出两款新产品，帮助客户推出能够提供有帮助的、无害的和诚实的回答的大语言模型，减少其中的偏见和幻觉(Hallucinations)。其中包括两个主要解决方案：

AI 聊天反馈 ——领域专家能够评估多轮实时对话，使他们能够审查、评分和重写每个回答。

基准测试 ——旨在帮助客户评估模型在各个维度上的性能的解决方案，例如模型准确性、毒性等。

聊天反馈

基于LLM的聊天机器人助手的兴起，加速了对能够支持多项任务的更复杂的对话式人工智能的需求。由于用户和LLM的对话会延伸到多个回合，并涉及现实世界中的多种事实，对LLM产品进行多轮、多角度的测试就变得非常重要。在测试中，我们会多角度检测模型的语境理解能力和回答的连贯性，并测出模型在多轮对话中的欠缺，最终提高用户体验和模型的实用性。

澳鹏的AI聊天反馈工具支持通过多轮评估来管理端到端的数据流，并为客户提供所需的数据来帮助改进模型。

基准测试

澳鹏的基准测试工具解决了企业在快速进入人工智能市场的压力下面临的拐点：如何确定适合特定企业应用的LLM基础模型。模型选择对应用程序的许多方面都具有战略意义，包括用户体验、后期维护和盈利能力。借助基准测试解决方案，客户可以按照常用或完全自定义的维度评估各种模型的性能。该工具与澳鹏的人工智能培训专家团队相结合，根据感兴趣的人口统计维度（例如性别、种族和语言）评估绩效。可配置的仪表板可以跨不同感兴趣维度对多个模型进行有效比较。

澳鹏CEO表示：“随着人工智能聊天机器人变得更加先进，企业在将其发布到世界各地之前对其进行正确处理的风险就更高，否则它们将面临有害偏见和危险反应的风险，从而可能对业务产生长期影响。澳鹏的新评估产品为我们的客户提供了必要的信任层，确保他们发布的人工智能工具真正对公众有帮助且不会造成伤害。这个信任层得到了强大的数据集和流程的支持，这些数据集和流程在我们 27 年的人工智能培训工作中被证明是有效的，并且拥有超过 100 万人类专家组成的团队，他们正在关注数据的细微差别。”

人类反馈已被证明对LLM模型的性能至关重要。澳鹏的世界一流技术得到全球超过 100 万人工智能培训专家的支持，他们评估数据集的准确性和偏差。AI 聊天反馈工具直接将LLM输出与专家连接起来，以便它可以从多样化的自然聊天数据中学习。澳鹏利用其二十多年在直观、高效的标注平台方面的经验，设计了一个熟悉且轻松的聊天界面。专家与模型（无论是客户的模型还是第三方的模型）进行实时聊天，并对他们的评估进行评分、标记和提供背景信息。这种白手套服务延伸到项目专门人员，他们仔细分析每批数据，发现边缘情况并优化数据质量。

澳鹏不断迭代其产品，并即将在近期推出智能LLM开发平台，并已开放咨询。如您对我们的服务能否帮助您感兴趣，请联系我们，我们的专家会为您进行全面说明。

关于澳鹏

澳鹏是人工智能生命周期数据领域的全球领导者，在数据采集、数据标注和模型评估方面拥有超过 27 年的经验。通过我们的专业知识、平台和全球人群，我们使组织能够快速、大规模地推出世界上最具创新性的人工智能产品。澳鹏拥有业界最先进的人工智能辅助数据标注平台，并拥有全球超过 100 万贡献者，使用超过 235 种语言。我们的产品和服务使澳鹏成为技术、汽车、金融、零售、医疗保健和政府领域领导者值得信赖的合作伙伴。澳鹏在全球拥有客户和办事处。

澳鹏支持全栈式大模型数据服务，包括数据集，模型评估，模型调优；同时，澳鹏智能大模型开发平台与全套标注工具支持您快速部署大模型应用。

了解服务