通过可用数据和注音保护语言

07/08/2022

依托澳鹏的知识和经验,Harvey博士创建一个可用的可持续数据库来保护Larrakia(拉拉基亚)语言。

项目概况

为保护Larrakia语言,语言学家Mark Harvey博士与Larrakia Nation Aboriginal Corporation of People和澳鹏协作,旨在改进Larrakia语言可用文本和音频数据语言样本的数据库。 该数据库是保护和复兴Larrakia语言的重要一步,因为最后一位能够流利使用这种语言的人在20多年前就已去世。项目开始时,便建有一个数字化的音频和文本数据库,其中收录了有限的Larrakia的单词、句子和话语。因为这个数据库最终将用于学习和教授Larrakia语言,所以解决数据差异问题和填补数据空白对于保护语言数据的完整性至关重要。

挑战

项目一开始面临的挑战是,两个数据库(文本数据库和音频数据库)并没有连接起来。通过不严格的时间配准即可分别获得音频和文本,但却没有简单的方法来分离特定的句子或特定的说话者,或是区分英语段落和Larrakia段落。此外,文本数据库还有很多错误,需要大量的编辑工作。于是,Harvey博士向澳鹏求助。 依托澳鹏处理大量数据的知识和经验,以及创建易于使用的无缝数据库,Harvey博士构建了一个更好、更经得起时间考验的语言数据库。 项目遇到的另一个挑战是,如何确保数据和数据库在未来长期可用。正如Harvey博士在我们的采访中指出的那样,“人们不了解的是,使用软件和计算机存档实际上比使用纸质文件差得多。您是否曾尝试访问1980年代的Word文档?” 阅读1980年代的纸质文件对任何人来说都很容易,但那时的数字文档却与大多数现代软件和计算机并不兼容。Harvey博士通过与澳鹏合作创建一个可持续的可用数据库,确保Larrakia数据库能够长期保存,同时便于以各种格式进行使用。

解决方案

澳鹏引入此项目,以进一步对齐两个数据库,丰富相关的元数据,并提供声学度量,帮助描述Larrakia元音和辅音。澳鹏语言专家提供了补充的英语转录,并通过在相关的意义单位(短语、句子或单个单词)插入标记,引入更精细的时间戳。最后,针对各意群进一步标记出说话人的角色和所说的语言。 在项目第二阶段,澳鹏利用这种粒度轻松地分离文本的特定部分,并与Harvey合作添加和更正标签,然后将这些标签插入数据库中。 在项目的最后阶段,从数据中提取元音和辅音子集。澳鹏专家监督提取的子集的语音标注,并进行声学度量,这样能帮助描述和更好地理解Larrakia的语音目录(即元音和辅音)。 在Harvey看来,与澳鹏合作似乎是必然的,因为澳鹏是他所知道的屈指可数的能够处理如此大量独特数据的公司之一。他补充道,“员工的过硬素质和专业知识一直是我需要的。澳鹏基本上都做到了。他们已满足设定的时间表和期限要求,这在我的数据处理经验中是非同寻常的,而数据处理工作鲜有时间表。”

成果

Larrakia语言数据库项目仍在继续进行中。将两个数据库对齐并学习元音和辅音只是开始。下一步将是保护和教授这门语言。 作为合作伙伴,澳鹏一直在帮助创建一个可持续的可用数据库。 在项目继续进行的同时,Harvey博士对该计划的成功标准做出了定义。最后,他希望得到一个具有良好保质期的可用数据库,这意味着它可以广泛使用。

“因此,20年后,希望至少有人能够进入数据库,知道他们要怎么做。” –语言专家Mark Harvey博士

澳鹏提供自然语言处理AI所需的全生命流程数据服务,包括数据采集、数据标注、知识树、数据集、模型测试以及大模型搭建与优化,为您部署更好的自然语言处理AI提供数据支持。