反馈打造完美——机器学习模型的评估

11/18/2022

产品和程序的发布总伴随着漏洞——对最喜欢的应用程序进行移动更新就是部署和优化方法的绝佳示例。一些小差错的出现在所难免，它们对产品或用户体验影响不大，但有时却会出现非常明显的漏洞，在全球造成巨大的后果。人们想知道像这样的错误是如何通过质量保证的，答案很简单：数据不足或模型评估和测试不充分。不经过模型测试，就无法知道消费者使用时模型能否正常工作。人们普遍误认为模型只需要测试一次便可确保正常工作。为真正确保模型尽可能臻于完美，模型在每次更新后都需要重新评估。根据我们的2022年《AI和机器学习全景报告》，去年，有86%的企业至少每季度更新一次模型，今年这一数字已增加到91%。这些不断进行的更新表明，我们需要更加关注AI模型的人机协同评估。《AI和机器学习全景报告》的第三个关键要点侧重于评估，说明人机协同模型评估在当今时代仍然必不可少的原因。

模型评估基础

受访者对人机协同的重要性有着强烈的共识。81%的受访者认为，它非常重要或极其重要，97%的受访者认为，人机协同评估对于AI模型的准确性很重要。评估对机器学习的成功至关重要，它实际上是AI数据生命周期的第四阶段，也是最后一个阶段。模型完全部署后，除非需要额外的验证和重新训练，否则模型几乎是完全自主的。由于必须添加新的数据点才能产生更多输出，因此，大多数模型都需要在几乎一致的基础上重新评估。虽然使用AI模型是为了在各种场景下自动解决问题和做出响应，但如果程序学习不当或使用不良数据予以训练，则整个过程都可能遭到破坏。这时就需要人工介入。人工检查标注的数据集，并确保它产生预期结果，这些结果往往是对人工决策的反映。如果结果正确，则无需采取任何行动。然而，如果结果错误，则必须将新数据输入程序，并删除原先输入的错误数据。然后还需要再次测试模型，直至模型显示正确的结果。一旦模型学习不当，便会自动沿袭错误路线，直至外力（也就是人工）介入纠偏。机器会犯错误，而且它永远不会真正取代人类，因为评估和训练是完善AI模型的关键环节。

模型评估挑战

尽管模型评估对机器学习模型的成功意义重大，但它却没有得到应有的支持。通过对《2022年AI全景报告》的分析，我们发现，AI生命周期的第四阶段（也即最后一个阶段）得到的预算拨款最少。在模型评估阶段，将确定模型输出中的不一致之处或程序是否正确运行。如果即将投入市场的程序无效，则可能需要重新编程，由此产生的预算影响远比在初步计划中就纳入适当的模型评估要大。另一项重大挑战是，需要找到一位能够提供适当质量保证和专业知识的数据合作伙伴，以便为AI模型提供所需结果。实际上，83%的受访者表示，他们希望能够由一家合作伙伴在AI项目生命周期的所有阶段提供支持。适当的合作伙伴不仅可以确保模型一开始便得到正确的训练，而且可以节省大量的时间和成本。在澳鹏，我们引以为豪的是，“我们拥有独特的能力，能够为AI生命周期中不同数据模式的、以数据为中心的各阶段提供支持，这使澳鹏成为企业理想的外部数据提供商。”——首席产品官Sujatha Sagiraju

详细了解AI生命周期数据

模型评估是AI模型成功的关键，在我们第8期年度《AI和机器学习全景报告》中，业内专家分享了各自的观点。立即阅读该报告及其他四个关键要点，以便更好地了解当前行业趋势和与数据获取相关的诸多挑战。

澳鹏全球团队为您的模型评估需求提供定制化服务，包括Benchmarking，A/B Test，实地测试等。

联系我们