为什么AI模型需要合乎道德的数据

01/06/2023

道德问题简介

“合乎道德的数据”和“负责任的数据”这两个词的含义可能并不明确。在科技界和AI数据界，道德原则是指负责任地采集和使用数据用以训练模型，并确保这些模型不带偏见地与人类交互。不仅为训练模型负责任地采集和使用数据很重要，而且模型本身也需要对社会产生积极的影响，不得用于赚取不道德的利益。

根据我们的2022年《AI和机器学习全景报告》，93%的受访者认为，负责任的AI是其所在企业所有AI项目的基础。作为所有AI项目的一个组成部分，道德原则是该报告的第五个、也是最后一个要点。我们看到，人们越来越重视确保AI生命周期各阶段均能以负责任的方式推进，主要关注减少偏见以及获取合乎道德的数据。

道德的基础

为确保能够以合乎道德和负责任的AI创建机器学习模型，模型需要满足以下要求：

不含个人身份信息（PII）

获得从每位标注员采集数据的权限

包含代表各类人群的人类数据

结果将大有助益而不是相反

数据采集人员在整个过程中保持中立

遵守国家和政府数据法规

这些要求看似简单，实则不易满足，在所有的数据获取、准备和评估工作中，都需要真正尽心尽力，才能提供合乎道德的AI产品。

负责任的数据采集

确保数据合乎道德并负责任地获取数据，其最大的一个推动力是数据采集最初存在的不足。有一种误解是，认为使用少量数据也可以正确训练AI模型。如果缺少足够的数据来正确地训练模型，有限的数据集则可能会将偏见引入模型。以一个推荐食物或玩具的AI宠物应用程序为例。如果训练数据基于只养猫的人，模型就无法训练为养狗或养鸟的人提供适当的建议。

要确保数据获取合乎道德且无偏见，最好的一种方法就是雇用对项目没有情感投入的人来采集数据。即使初衷良好，任何人也很容易在不知不觉中采集到更多倾向于自己喜欢或认同的想法的数据。在宠物应用程序的例子中，喜欢狗的人可能会无意中更多地采集养狗人的数据，而不是向养其他宠物的人采集数据。这样，训练结果就会产生偏见，使得该应用程序在与狗有关的查询中表现更佳，而在有关其他宠物的查询中则差强人意。招募中立的第三方来采集数据，并采取适当的保障措施，以确保采集的数据来自多样化的、有代表性的标注员，所有使用模型的人将同样受益。

合乎道德的数据准备

在完成所有数据采集后，必须删除PII，以确保标注员的隐私权得到维护。这点对于与医疗保健相关的机器学习模型尤其重要，因为共享患者的健康状况违反了《健康保险可携性和责任法案》（HIPPA）。为防止发生PII问题，企业可以采取的一种方法是使用合成数据。合成数据集将始终不受PII的限制，它可以帮助为不太常见的用例生成数据，涵盖模型的所有场景。另一种预防PII问题的方法是，与Quadrant合作，使用我们的Geolancer程序，该程序可以在将上传的目标点和图像数据集提供给客户之前，自动将其从上传的目标点和图像数据集中删除。为确保我们所使用的数据的采集合乎道德，我们利用我们的全球众包人员采集数据，他们涵盖不同群体，这样就能防止模型中出现偏见。

合乎道德的AI的应用

尽管许多AI模型是为了改善生活或简化任务而开发的，但好的技术落入坏人之手也可能产生危险的后果。创建AI项目的公司必须考虑成品的实际使用情况。

对于大多数程序和产品而言，人们使用它们的好处显而易见。这可以很简单，比如获得商品购买建议，或者使用程序编辑论文以正确使用语法。然而，模型中使用的数据源自人们的生活，世界上总有人会尝试对数据进行逆向工程。他们这样做是企图发现人们的身份，或者修改现有的程序，以达到不道德的目的。因此，世界各国政府纷纷制定了特殊的数据要求，以确保所有数据的获取合乎道德并且负责任，不会落入坏人之手。

如果采取了上述所有措施，确保数据的采集和使用是负责任的，则模型的训练将合乎道德。最终产品就将发挥预期作用，并对消费者的生活产生积极的影响。考虑到各种潜在的风险和益处，显然，在我们的调查中，企业领导者和技术专家都认同它的重要性。

详细了解合乎道德的数据

合乎道德的数据是AI模型成功的关键，行业专家在我们的第八份年度《AI和机器学习全景报告》中各抒己见，分享了他们的想法。通过阅读该报告，您能够更好地了解当前的行业趋势和数据道德方面的挑战。另外，也敬请阅读我们关于该报告其他四个关键要点的文章。如需了解更多信息，请观看我们的点播网络研讨会，其中我们深入讨论了《AI全景报告》中涉及的所有话题。

详细了解道德相关内容？请查看我们关于合乎道德的数据的系列文章：

AI生命周期各阶段的道德问题：数据准备

澳鹏在训练数据领域已有28+年经验，服务全球超过15000个人工智能项目，为您的AI部署提供高质量训练数据。

联系我们