CLEAR Global 和 Sheng 语言

12/14/2022

训练聊天机器人学习一门新语言

公司:

CLEAR Global,前身为无国界译者(Translators Without Borders),是一个非营利组织,致力于帮助人们获取重要信息,传达自身观点,不限制语言的种类。


项目概况:

CLEAR Global与澳鹏作为长期的公益伙伴关系,在总体文化水平较低的地区积极开发语音热线等聊天机器人,促进人们的心理健康。该公司首先要攻克的语言是“Sheng”,这是一种斯瓦希里语-英语俚语,主要使用者为内罗毕等肯尼亚城市地区的青年。随着“Sheng”的使用量不断增加,社区信息资源必须能够随时根据词汇中的新变化做出调整,为人们提供尽可能准确可靠的信息,这点至关重要。 由于“Sheng”是澳鹏和CLEAR Global从未处理过的一种新语言,澳鹏语言学家团队需要围绕语言研究、最佳实践和方法论开发一个项目模型。澳鹏团队需要提供一份针对语言特性的简明摘要文档,还要提供咨询服务,并在未来的语言中实现类似的输出。


挑战:

在处理一种对澳鹏而言复杂或陌生的语言时,我们的团队会进行结构化研究,其输出是一份语言特定特性(LSP)文档。LSP是一份简明的研究文档,它概述一种语言的语音、语法和缀字法,以及该语言的应用环境(在本例中是语音聊天机器人)。 “Sheng”的使用迅速发展,被用于广告、公益广告和政治活动中。然而,社区之间的语言差异很大,词汇转换率很高,这就阻碍了规范和文档的广泛形成。“Sheng”LSP需要强调这些变化模式,以帮助开发人员在他们的模型中妥善处理这种可变性。


结果:

在两个多月的时间里,项目团队提供了五种咨询模板、一份Sheng LSP文档和一份LSP模板,其中包含了创建未来LSP文档的说明。 咨询模板和LSP模板专为CLEAR Global开发,供他们进行研究,特别是研究不太为人所知的小语种。使用我们提供的材料,他们将能开发自己的LSP研究文档,用于未来开发一系列非洲语言的ASR模型。 澳鹏也通过参与此项目深受启发。我们为不同目的开发和编写语言特定特性文档的知识和流程得到集中和固化,特别是针对研究资源较少的语言。 CLEAR Global的斯瓦希里语负责人Paul Waramabo表示,“作为一名母语为Sheng和斯瓦希里语的人,澳鹏提交的LSP文档的细节和准确性让我印象深刻。这是个强大的工具,展现出诸多未开发语言的无限可能,让我们在这些语言领域有所作为。”

澳鹏支持多语言的内容相关性标注,包括内容审核、结果评估、行业相关性判断等。