训练数据的误差：如何识别和避免常见的数据误差

10/21/2021

将人工智能与传统软件开发进行对比很有帮助。在传统软件开发中，程序员只需输入固定代码（即每次使用相同代码运行软件，产生同样的运行结果）。但是，在AI开发中，最重要的不是代码，而是数据，尤其是数据标注。高质量且标注准确的数据对于构建高性能AI模型至关重要。质量差的数据往往难以识别。为说明这一点，让我们首先定义什么是训练数据。各数据单元均包含一个文件（图像、文本、音频或视频片段）、文件属性（分配给文件的赋予其意义的标注）以及标注属性（包括标注时间、标注者及标注条件）。例如，假设我们要构建一个使用激光雷达（LiDAR）数据的模型。LiDAR通过发送脉冲捕捉其与目标物体之间（如汽车或行人）之间的距离。使用LiDAR时，标注员的示例任务可能是围绕汽车绘制一个三维边界框或长方体。该模型的训练数据可能是个 JSON 格式的代码文件，详细说明了长方体位置、高度和宽度及包含的内容（在本例中为汽车）。在此标注过程中，数据误差发生机率非常高。通过了解这些潜在数据误差，有助于建立完整且具有代表性的数据集。

三种常见数据误差

澳鹏总结了标注过程中常见的三种数据误差，以下为每种误差的详细介绍：

1.标注误差

标注误差是高质量数据开发过程中最常见的误差之一，而且有好几种类型。例如，想象一下，如果数据标注员接收的任务是：在图像中围绕奶牛绘制边界框，则预期输出是围绕每头奶牛的紧密边界框。以下为完成该任务过程中可能会发生的几类标注误差： 标注缺失：标注员并没有为每头奶牛绘制边界框，出现漏标现象。 标注粗略：每头奶牛的边界框不够紧密，牛与边界框之间存在多余空隙。 指令误解：标注员为整个牛群绘制了边界框，而不是分别为每头奶牛绘制边界框。 遮挡处理：标注员不仅围绕可见的奶牛绘制边界框，还围绕预计体型的部分隐蔽的奶牛绘制边界框。在许多类型的项目中，均可能出现这些类型的误差，而避免这些情况的关键就是向标注员传达清晰的指令。

2.训练数据不平衡

您需要仔细考虑训练数据的构成。不平衡的数据集会导致模型性能出现偏见。以下情况会出现数据不平衡： 类别不平衡：如果数据集不具代表性，则会出现类别不平衡情况。如果您正在训练您的模型识别奶牛，但仅使用在阳光明媚的绿色牧场上的奶牛图像数据，则您的模型将很好地识别这些条件下的奶牛，但对于其他条件下的结果则不尽如人意。 数据的时效性：随着现实世界的发展，模型会日趋退化。冠状病毒就是个很好的现实示例。如果在2019年搜索“corona”，则搜索结果页头条很可能是科罗娜（Corona）啤酒。但在2021年，搜索页面全是关于冠状病毒的新闻文章。因此，模型需要根据新数据定期更新，以适应现实环境的变化。

3.标注过程中的偏见

在谈论训练数据时，常会提到标注偏见。如果聘用一组同类的标注员，或需要专业知识和背景来准确标注数据时，则可能会在标注过程中引入偏见。例如，标注员接收到这样的一项任务：对图片中的早餐进行标注。数据集由世界各地的流行菜式图片组成：英国的黑布丁、荷兰的巧克力碎（洒在吐司上）、澳大利亚的维吉麦酱。如果让美国标注员来标注这组数据，他们可能难以辨认这些菜式，而且肯定会对它们是否是早餐做出错误的判断。因此，数据集的标注结果会带有美国标注员的偏见。在该示例中，正确的做法应是聘用世界各地的标注员，以确保捕捉每种文化菜肴的准确信息。

避免数据误差

作为一名AI从业者，可以采取哪些措施避免上述常见数据误差？在整个数据标注过程中实施质量检查，以确保在数据对模型产生影响前，发现及修正数据误差。在标注员提交标注结果前，利用AI仔细检查其判断（即智能标注方法）。澳鹏的自主研发数据标注平台拥有智能标注功能，可以由人工智能辅助进行预标注，提醒标注员标注质量，以及辅助进行质量检验。了解我们的标注平台，或联系我们了解我们如何保证训练数据的质量。此外，请务必使用人机协同方法监控模型性能以免出现任何偏见。减少偏见至关重要。除了聘用多元化的标注员外，还有其他几种方法可以消除数据偏见，点击链接了解如何消除AI数据中的偏见。如果您想了解更多关于如何保证训练数据质量的信息，澳鹏网络研讨会：如何提高人工智能的训练数据质量，深入浅出地讲述了如何提高数据质量，分享了我们的经验以及一些建议。

澳鹏在训练数据领域已有28+年经验，服务全球超过15000个人工智能项目，为您的AI部署提供高质量训练数据。

联系我们