反馈打造完美——机器学习模型的评估

11/18/2022

产品和程序的发布总伴随着漏洞——对最喜欢的应用程序进行移动更新就是部署和优化方法的绝佳示例。一些小差错的出现在所难免,它们对产品或用户体验影响不大,但有时却会出现非常明显的漏洞,在全球造成巨大的后果。人们想知道像这样的错误是如何通过质量保证的,答案很简单:数据不足或模型评估和测试不充分。不经过模型测试,就无法知道消费者使用时模型能否正常工作。 人们普遍误认为模型只需要测试一次便可确保正常工作。为真正确保模型尽可能臻于完美,模型在每次更新后都需要重新评估。根据我们的2022年《AI和机器学习全景报告》,去年,有86%的企业至少每季度更新一次模型,今年这一数字已增加到91%。这些不断进行的更新表明,我们需要更加关注AI模型的人机协同评估。 《AI和机器学习全景报告》的第三个关键要点侧重于评估,说明人机协同模型评估在当今时代仍然必不可少的原因。


模型评估基础

受访者对人机协同的重要性有着强烈的共识。81%的受访者认为,它非常重要或极其重要,97%的受访者认为,人机协同评估对于AI模型的准确性很重要。评估对机器学习的成功至关重要,它实际上是AI数据生命周期的第四阶段,也是最后一个阶段。 模型完全部署后,除非需要额外的验证和重新训练,否则模型几乎是完全自主的。由于必须添加新的数据点才能产生更多输出,因此,大多数模型都需要在几乎一致的基础上重新评估。 虽然使用AI模型是为了在各种场景下自动解决问题和做出响应,但如果程序学习不当或使用不良数据予以训练,则整个过程都可能遭到破坏。这时就需要人工介入。人工检查标注的数据集,并确保它产生预期结果,这些结果往往是对人工决策的反映。如果结果正确,则无需采取任何行动。然而,如果结果错误,则必须将新数据输入程序,并删除原先输入的错误数据。然后还需要再次测试模型,直至模型显示正确的结果。 一旦模型学习不当,便会自动沿袭错误路线,直至外力(也就是人工)介入纠偏。 机器会犯错误,而且它永远不会真正取代人类,因为评估和训练是完善AI模型的关键环节。


模型评估挑战

尽管模型评估对机器学习模型的成功意义重大,但它却没有得到应有的支持。通过对《2022年AI全景报告》的分析,我们发现,AI生命周期的第四阶段(也即最后一个阶段)得到的预算拨款最少。在模型评估阶段,将确定模型输出中的不一致之处或程序是否正确运行。如果即将投入市场的程序无效,则可能需要重新编程,由此产生的预算影响远比在初步计划中就纳入适当的模型评估要大。 另一项重大挑战是,需要找到一位能够提供适当质量保证和专业知识的数据合作伙伴,以便为AI模型提供所需结果。实际上,83%的受访者表示,他们希望能够由一家合作伙伴在AI项目生命周期的所有阶段提供支持。适当的合作伙伴不仅可以确保模型一开始便得到正确的训练,而且可以节省大量的时间和成本。 在澳鹏,我们引以为豪的是,“我们拥有独特的能力,能够为AI生命周期中不同数据模式的、以数据为中心的各阶段提供支持,这使澳鹏成为企业理想的外部数据提供商。”——首席产品官Sujatha Sagiraju


详细了解AI生命周期数据

模型评估是AI模型成功的关键,在我们第8期年度《AI和机器学习全景报告》中,业内专家分享了各自的观点。立即阅读该报告及其他四个关键要点,以便更好地了解当前行业趋势和与数据获取相关的诸多挑战。

澳鹏全球团队为您的模型评估需求提供定制化服务,包括Benchmarking,A/B Test,实地测试等。