AI数据质量监控:数据质量的关键KPI都有哪些?

04/07/2023

AI所支持的程序或设备成功实施的关键取决于用于训练模型的数据。使用低质量训练数据会导致模型训练不良,从而可能需要额外时间和预算进行重新训练和测试。为防止这种情况,最佳方法是在模型训练过程中实施质量检查。需要注意的是,不同质量度量的目的不尽相同,有些度量更适合各类数据。

这些度量包括:

  • 评分者间可信度——单审和双审、审计
  • F1分数——准确率、召回率
  • 准确性——黄金数据集、测试

数据各不相同,衡量标准也是如此。不同类型的度量适合不同的项目需求。

评分者间可信度

单审是由两名不同的标注者对同一条数据进行标注(一名负责标注,另一名负责确认标注正确性),检查标注是否一致。如果一致,则确定数据标注正确。如果两人标注不一致,则需要再次审核。引入第三名标注者处理这条数据。如果第三名标注者的结果与前两人中的任何一人一致,则认为所标注结果正确。如果标注结果都不一致,则丢弃数据,再次执行此过程。此过程只有两种情况,不是100%一致就是不一致。如果需要,可以允许部分一致。这即为何如果不满足准确性阈值要求,数据质量便不足以训练模型按预期运行的原因所在。

审核员可以结合单审和双审,也可以独自工作。审核员是经验丰富的标注人员,他们能够始终高质量工作,评估已完成标注的数据,检查标注是否正确。审核员还向数据处理人员提供反馈,告知他们错误之处。让多名审核员参与一个项目是明智之举,这样可以审核更多数据,并防止不良数据进入模型。

F1分数

F1分数通常用于分类数据集,它是基于所提供训练数据的模型预测准确性的分数。计算该分数有两个重要度量:召回率和准确率。召回率是指检索到的相关条目的百分数。准确率是指相关的检索项目的百分数。客户发现F1有助于在其数据标注中找到准确率和召回率之间的平衡。如果只追求准确率或召回率,F1并没有什么用。

准确性

基于测试的准确性通过项目前和项目期间所进行的测试予以衡量。预筛选是我们众包团队所经历的流程,旨在确保他们了解如何根据项目需求具体地标注数据。他们需要正确回答一系列问题才可获准工作。在整个项目中还会加试。

另一种测验方法是通过黄金数据集,它们是预标注数据片段,被集成到标注为测验的数据集中。在嵌入的测试由一个人标注后,将会提供准确性分数。如果标注者在任何一种测试方法中均达到一定的分数,则能够继续在项目中工作。这些类型的测试让项目负责人能轻松识别不符合项目需求的标注者,并从正在训练的模型中除去他们以及他们所处理的数据。

获取正确的数据

仅仅确保获得的数据按照项目要求准确标注是不够的;数据还必须对程序或设备有益并且完整。完整的数据涵盖了成功训练模型所需的所有可能用例。

数据获取有四种主要方式:

- 手动采集

- 使用技术结合人机协同

- 使用预标注数据集(PLD)

- 使用合成数据

如果没有预算或时间限制,手动获取所需的全部数据是个很好的选择。需要加快流程的企业可以使用PLD。我们的网站上有250多种PLD,随时可用。也可以使用混合模型,其中,预标注数据作为起点,然后通过人工处理剩余的数据为模型训练做好准备。

或者,如果数据本质上是敏感的(如医疗和金融行业),则宜使用生成式数据,其中数据值与真人无关。生成式数据称为合成数据,可以创建不含个人身份信息(PII)的数据,是难以实现的边缘案例的理想选择。我们与Mindtech合作,为客户提供这些合成数据解决方案。

高质量数据始于标注者

保证数据高质量的一种基本方法是使用专门的标注人员,他们能够准确标注数据,并严格遵守项目要求。在澳鹏,我们在全球各地拥有超过100万名众包人员。通过我们的托管服务,众包人员通过严格的预筛选标注测试,确保他们能够根据项目要求准确地标注数据。

为确认标注在整个过程中均可正确执行,还需要检查数据质量。数据检查通常通过审核流程进行。这个流程由审核员完成,他们遵循相同的预筛选过程,以证明他们可以合乎项目要求,并防止标注不良的数据被用于训练模型。

主观质量与客观质量

重要的是要注意质量度量并不总是明确的。它们可以分为两类,主观的和客观的。

以下是一些用例示例:

- 客观用例:分类和细分

- 主观用例:相关性排名和情绪分析

客观用例通常包含直接的答案。例如询问图像中是否包含炸薯条,或在自行车周围放置边界框。答案的差异在主观用例中很常见。例如,询问一个人他们看到的结果是否与他们搜索的主题相关,或者询问他们正在查看的书面内容是否包含正面信息。对于这些示例,每个人给出的答案都会略有不同,因为世界上没有任何两个人是相同的。这些客观度量收集用户与项目或程序交互时可能如何看待的共识。F1和基于测试的质量度量非常适合处理更客观的数据集,而评分者之间的可信度则优于主观数据集。

澳鹏如何帮助您

我们在全球拥有超过100万名标注人员,他们善于使用各类型数据开展项目,产出高质量结果,并与审核人员合作。我们的项目和计划经理在处理各类型质量度量方面身经百战,将与您携手确保项目达到预期目标。我们的澳鹏数据标注平台(ADAP)能够采集数据,并根据您选择的度量完成标注。

还不确定哪种质量度量最适合您的下一个项目?请联系我们,我们将乐意帮助您决定要使用的质量度量。

澳鹏在训练数据领域已有28+年经验,服务全球超过15000个人工智能项目,为您的AI部署提供高质量训练数据。