如何让罕见语言的使用者也能参与到全球对话?

12/26/2024

对于罕见语种的使用者而言,如何确保知识获取的公平性?早期的在线翻译软件笨拙呆板,逐字直译,往往导致对语言细微差别的严重误解。而目前在一众翻译软件中,由Azure AI技术支持的微软翻译帮助实现了多语言间的无缝沟通和跨文化交流。

扩展语言能力,尤其是罕见语种,是微软翻译面临的一大挑战。目前,微软翻译支持110种语言,其中,澳鹏Appen为其108种语言提供数据支持。一起来走进今天的案例故事。

关于微软翻译

微软翻译是一个由AI驱动的实时翻译工具,提供跨多种语言的文本、语音和图像翻译。从世界上最常用语言的翻译开始,通过不断添加越来越多的语言,微软翻译如今已扩展至110种语言可供用户用于翻译和使用其他语言工作。

微软翻译中不断涌现的不常用语言,也是在教育和呼吁年轻一代保护正在消失的语言,以促进知识的公平获取,为消除语言障碍、促进全球跨文化交流做出贡献。

目标

微软翻译与澳鹏Appen合作的主要目标是显著增加平台上可用的语言数量,特别是罕见语种。通过扩展其语言能力,微软希望:

  • 帮助所有的语言使用者,尤其是使用罕见或濒危语言的人群,能够平等获取知识;
  • 通过高质量、训练良好的数据集,提高AI翻译的准确性;
  • 开发工具来解决AI翻译模型中的潜在偏见。

挑战

微软翻译利用AI进行语言间翻译,但构建准确的机器翻译模型需要大量、高质量的标注数据。对于一些不太常用的语言,微软翻译很难获得所需规模的数据集。挑战主要包含两大方面:

  1. 数据采集:微软需要来自母语者的大型数据集,但对于一些语言,能够找到流利的使用者已十分困难。
  2. 数据标注:准确地将数据转录和翻译成目标语言,不仅需要专业的语言知识,还需要对每种语言的文化背景有一定了解,例如专业人员和语言学家。

此外,微软还需要解决潜在的翻译偏见,例如对性别模糊的句子进行准确翻译。这些复杂的要求使得寻找能够为不同语言提供定制解决方案的数据合作伙伴至关重要。

解决

从本地资源直接获取数据

澳鹏Appen与本地资源合作,直接从母语者获取语言数据,收集高质量的语言样本,准确呈现每种语言文化的细微差别。

定制化数据标注服务

澳鹏Appen专家团队通过精准转录和翻译每个样本来标注采集到的数据,并通过多重质检确保翻译的准确性。澳鹏团队帮助微软为性别模糊不清的源语言生成多种翻译,以解决翻译偏见问题。

音标相似性和音译

对于具有不同字母或语音系统的语言,澳鹏Appen应用音标相似性和音译技术,确保数据集格式正确,提供满足大规模AI项目需求的可扩展性。

成果

目前,在微软翻译提供的110种语言中,较新和不太常用的语言包括:阿萨姆语、巴斯克语、达利语和普什图语、库尔德语、中文文言文、毛利语、奥里亚语等。在这110种语言中,澳鹏Appen为其中的108种提供数据支持。得益于与澳鹏Appen的合作,微软翻译能够显著扩展其语言能力,在保护濒危语言和促进全球知识的公平获取方面取得重大进展。

澳鹏Appen拥有广泛的语言专业知识和在全球范围内快速募集资源的能力,甚至对于鲜为人知的罕见语种,都能够帮助我们快速获取。 ——微软AzureAI产品副总裁 Marco Casalaina