以人为本的AI技术升级
Wilson Pang 逄伟 澳鹏Appen 首席技术官
- 我们需要以人为本的技术来提高生产力和投资回报率。
- 通过在数据标注流程中融合机器学习辅助技术,可以减少数据标注所需的时间、资金和人力。
- 有很多方法可以防止标注员被模型的预测误导。
在传统的机器学习(Machine Learning)方法下,人工负责标注模型所需的每一行数据。这个任务通常很耗时而且成本高昂,因为成功的人工智能(AI)模型需要数千甚至数百万个准确标注的训练数据。
随着我们不断改进人工智能的构建方法,我们不得不思考如何改进数据标注中的高密度人工作业情况。
现在,澳鹏拥有诸多最先进的预标注模型,用来改善人工智能部署的流程。例如,我们已经开发使用了用于自动驾驶像素级标注、用于图像和文档转录、用于音频分割的预标注模型,以及其他几个预标注或分类模型。在我们不断迭代工具的过程中,我们发现以人为本的技术改进既可以提高生产力,又能实现更大的投资回报率。这种“以人为本的技术”充分考虑操作员的技能、知识、灵活性以及创造力,将其作为一种资产加入了整个人工智能构建流程。
在构建“以人为本的技术”时,我们的目标有两方面:一方面是在保证数据质量的情况下优化标注流程,另一方面是减少重复性的无意义操作,来减轻标注员的负担。
在进行视频标注时,通常需要对视频的各个帧单独进行标注,而每一帧中标注内容的变化非常小;例如,一段很多汽车进行路面行驶的视频包含很多帧,而每一帧中不同车辆的位置变化很小;如果需要对每一帧的每一辆车进行纯手工标注,会非常消耗时间和精力。通过机器学习辅助技术,我们可以对每一帧进行自动预标注,标注员只需要进行关键帧的调整,就可以完成原本无意义重复的标注工作。在这之中,机器学习辅助工具必不可少。
在减轻标注员工作繁复性之外,机器学习辅助工具还可以帮助实现数据标注的质检和交付的自动化。在澳鹏,我们将其称为“智能标注”。智能标注的辅助功能可以在标注前、标注中和标注后,帮助人工标注员提高工作效率和保证标注质量。
接触点一:标注开始之前
在开始标注作业之前,可以利用平台内置的模型进行预标注,提供一个基础模板。与纯手动标注过程不同,标注员只需检查预测的准确性,而无需从头开始进行标注。例如,如果想标注道路上的汽车,就可以使用我们提供的模型进行预分类和标注。
各种模型可以完成特定任务,应用于不同的标注需求:从审查色情内容,到掩盖个人详细信息,再到在对象周围添加边界框。使用现有模型提供初始数据标注,可以通过自动化部分标注过程来节省时间和成本。其准确性将取决于所选的模型或模型组合。
但您可能会问,如何防止标注员被模型的预测偏见所误导?
事实上,我们通过对几个标注项目进行大规模 A/B 测试进行了检验,结果发现:预标注数据提高了标注质量。换言之,与没有进行初始标注的数据相比,在移交给标注员进行最终标注之前由机器学习模型完成初始标注的数据产生的标注质量更高。
在自动驾驶汽车的一个图像像素标注项目中,使用机器学习模型进行初始标注后,我们所有试验的标注员生产力提高了91.5%,标注质量提高了10%。
如果您的团队仍然担心偏见误导,在生产线的后续两个阶段还有进一步的调整机会。
接触点二:标注期间
开始标注作业后,可以利用机器学习模型来辅助人工评判。例如,如果作业包括视频标注,则手动过程可能是这样的:首先将视频分成逐帧序列,再由标注员在每一帧中标注每个目标对象。
根据每秒 24 帧的标准帧速率,这项标注任务很快就会变成一项艰辛的重复作业。使用机器学习辅助技术,标注员只需标注一次目标对象,模型就可以跟踪并预测其在后续帧中的位置。以标注道路上的汽车为例,标注员只需在第一帧中标注每辆车,模型就将跟踪其位置并在其余帧中标注这些汽车。然后,标注员只需对其余帧进行审查,根据需要进行更正即可。
在标注作业期间借助机器学习辅助技术,标注员可以提高工作速度和准确性。在不牺牲质量的情况下,使用这种方法最高可以将标注速度提升至手动操作的 100 倍。这种方法的好处还会延伸到标注员身上,它可以减轻认知压力,使标注员在整个任务期间感觉更轻松自在。
最终接触点:标注完成后
在模型和标注员对数据做出评判之后,即可进入验证阶段。在此阶段,可以使用机器学习模型来验证所做的评判,并在标注员的输入未达到预期质量阈值范围时对标注员做出提醒。
这种方法有几个显著的好处。最显著的好处是,它可以减轻对测试或同行评审的需求,并且降低客户付费进行数据评判,最终却达不到质量要求的风险。在模型验证之后,标注员即可提交作业。
我们不仅需要投资 AI 解决方案,还需要投资 AI 支持流程的相关改进。 ——Wilson Pang
假设有一个文本语音项目,就可以使用机器学习辅助的验证工具,并结合设置连贯性或语种等指标。模型将标记出任何不符合这些指标准确性要求的数据标注,然后由人工标注员检查并更正标注。澳鹏在一个涉及聊天机器人训练的文本语音项目中测试了机器学习辅助验证工具。我们发现使用实时模型后,错误率降低了35%。
“这不仅仅可以推进 AI,还可以改进 AI 流程”
通过以人为本的技术将机器学习与人的操作结合起来,是 AI 创新的前进方向。
数据标注生产线中的机器学习辅助功能对企业和标注员都有帮助:企业可以花费更少的资源更快地推出高质量 AI 解决方案,而标注员可以减少工作的压力和重复性。后者对于为所有从事 AI 项目的个人提升 AI 实践的公平性尤为重要。
我们不仅需要在 AI 解决方案上投入资金,也需要投资于改进 AI 支持的流程。只有这样,才可以改进我们的 AI 伦理方法,并提升使用机器驱动型解决方案来解决全球问题的能力。
AI 并不意味着完全依赖于机器或人;相反,将二者充分结合可以增强彼此的优势并促进成功部署。
澳鹏为您的模型搭建及AI部署提供全生命周期的数据支持,包括数据采集、标注、模型测试以及数据集。