负责任的训练数据:三个重要方面

09/17/2021

毫无疑问,人工智能(Artificial Intelligence)技术一定会在接下来的几年中持续快速发展,并与我们的日常生活愈发密切地联系在一起。现在,企业必须要承担起责任,实施负责任的AI,以最大限度地提高透明度,减少偏见,并指导AI技术的道德应用。毕竟,运行良好的AI应该公平地为每个人提供服务。 有关负责任的政策和协议,当前制定的决策将决定AI的未来,进而决定AI将如何塑造我们的未来。数据是这些工作的基础;它是直接影响模型性能的各项AI技术的核心。模型的好坏取决于训练所使用的数据,这就是为什么数据是AI从业者在确定治理实践时可以真正有所作为的关键领域。 在AI项目中,数据科学家将大部分时间花在数据采集和标注上。完成这些任务时,有三个最重要的方面:保护数据隐私,减少数据偏见,和合乎道德地获取数据。

数据隐私

作为一名AI从业者,最关心的应该是数据隐私和安全。在这一领域已有相关立法,组织的数据处理协议应符合相关规定。例如,有关个人信息保护存在国际公认的ISO标准,欧盟的《通用数据保护条例》(General Data Protection Regulation,简称GDPR)等,世界各地也存在其他要求。您的企业必须遵循与其客户所在的所有地区的数据标准。 在全球某些地区,可能不存在数据保护法规,或有数据保护法规不统一的情况;无论如何,致力于负责任的AI意味着采取数据安全管理措施,并可保护您的数据供应商。在使用个人数据前,应先征求个人同意,并采取保护措施,防止任何个人身份信息的不正当使用。 如果不清楚应将哪类安全协议纳入到数据管理实践中,则可考虑与第三方数据提供商合作进行数据采集。这些第三方数据供应商已具备安全协议,并从专业的角度出发,指导您安全地处理数据。

数据偏见

偏见的数据会导致偏见的结果,这是AI开发的一个简单事实。但仔细想想,所有方法都有可能会无意中将偏见引入AI模型,情况就变得复杂多了。举例来说,假如您正在构建一个语音识别模型,也许是用于汽车。语音本身就有不同的音调、口音、填充词和语法(更不用说不同的语言和方言)。假设您希望语音识别模型适用于不同人口特征和背景的驾驶员,那么您就需要能够代表每一个用例的数据。 如果您收集的数据大多是男性声音,则语音识别模型通常会很难识别到女性声音。事实上,目前市场主流的基于语音的产品都存在这个问题,因为模型在训练期间并没有接触到足够多的数据类型。因此,我们面临的挑战是如何整理完整且公平的数据集,去涵盖所有用例和边缘用例。如果要创建对每个用户都有效的AI产品,首先要确保训练数据涵盖所有用户。

数据获取

提到数据获取,我们讨论的是与数据提供和准备人员待遇相关的合乎道德的方法。理想情况下,如果您提供了数据,那么您应该获得补偿(并且要意识到您是数据提供者)。补偿可以是金钱或服务的交换形式。 事实上,很多数据都是在我们不知情的情况下获取的,而且数据所有权的界限也很模糊。例如,如果您正在为进行工作视频通话,那么谁将拥有该通话产生的语音数据的使用权?贵公司吗?视频通话提供商吗?通话参与者?数据所有权的界限很非常模糊。在任何情况下,致力于负责任的AI的公司都应该公开他们收集的数据对象、类型和时间,并尽可能给予提供数据的个人适当的补偿。 不过,数据获取并不总是问题所在,让数据变得易于使用通常更加麻烦。您需要大量人员来清理和过滤数据,以确保数据对项目有价值,还需要更多的人使用准确的标签标注数据。这些人必须得到公平的待遇:包括公平的薪酬、开放的沟通渠道、隐私保护和舒适的工作条件。这一领域的立法主要是关于禁止现代奴隶制的法律和雇佣法,但企业还可以更进一步,确保其数据标注人员受到道德的待遇。例如,澳鹏依靠全球众包工作人员提供高质量标注服务,并已制定《众包资源伦理道德规范》,记录我们为他们创造福祉的承诺。

使用数据塑造AI未来

当今企业有责任做出AI决策,以带领企业和社会走向美好的未来。数据治理尤其会对AI工作的整体道德产生重大影响,这是因为数据偏见和数据管理是负责任的技术应用的关键。作为一名AI从业者,应着眼于建立一个数据治理框架,反映负责任AI的关键租户。如此,您可以为创造更公平的技术贡献一份力量,创造一项能够更好地反映社会多样性的技术。点击了解澳鹏负责任的训练数据解决方案

澳鹏在训练数据领域已有28+年经验,服务全球超过15000个人工智能项目,为您的AI部署提供高质量训练数据。