GumGum找到文本和图像标注及分类的更理想方式

12/28/2021

GumGum选择澳鹏功能强大的训练数据平台和机器学习(ML)辅助数据标注服务

公司简介

GumGum是一家专注于计算机视觉(CV)和自然语言处理(NLP)的人工智能(AI)公司。过去10年里,该公司将其专利能力应用于解决从职业体育到医疗等不同行业的众多难题,但使该公司声名鹊起的还是其数字广告行业解决方案。GumGum最激动人心的一项专有技术——网页内容分析技术,正是为该行业开发的。 利用GumGum的这项技术,可以对网页内容进行审查、识别和分类,帮助广告商在适当的、品牌安全的背景中投放数字广告。GumGum的上下文定位技术不是靠用户个人上网记录实施行为定位,而是在不侵犯用户数据隐私的前提下,提供符合用户利益的广告服务。它还能确保品牌的广告不会出现在令人反感或对品牌声誉有害的上下文环境中。


挑战

GumGum数据负责人Erica Nishimura表示,

“为了为数字广告投放提供准确的情境智能,我们的技术必须能够查看网页上的图像和文本,并识别其中的内容。对于图像,这就意味着我们首先需要确定它是否安全。”

我们会寻找仇恨象征、暴力、裸体、毒品等内容。如果发现这些内容,我们就会阻止广告的投放。确定内容安全后,我们会接着识别其中的内容:是人脸、是某个名人的脸,还是一只狗,或是任何可能与广告相关的东西。分析文本虽然更为复杂,但过程类似。” 为了让GumGum的算法理解他们其所发现和阅读的内容,必须向其提供大量相关的经标注训练数据。最初,GumGum与两名全职标注员合作,他们每个月最多可以标注15,000行文本数据或50,000张图片。 GumGum的CV和NLP科学家致力于该公司的算法研究,他们需要一种更好的方法来执行文本分类、图像分类和图像标注作业,以便高效地创建高质量结构化数据,用于训练该公司先进的机器学习模型。


解决方案

GumGum决定选择澳鹏功能强大的训练数据平台。我们为GumGum数据科学家提供解决方案,如机器学习(ML)辅助数据标注。 利用澳鹏平台,先前无编码经验或工程背景的GumGum团队成员也能创建新的标注作业,尤其标注作业更为复杂的情况。 此外,GumGum现在还可以为NLP相关项目创建外语数据标注任务。我们有可以从事标注工作的母语标注员或精通相关语言的标注员。澳鹏已成功完成多个语种的标注任务,包括西班牙语、法语、德语和日语等。Nishimura还表示,“GumGum对澳鹏日语标注的质量和支持特别满意,他们在过去一年有了巨大的改进。”


成效

Nishimura表示,“大多数数据科学家发现,数据标注过程非常耗时,等待数据标注结果令人不快,”所以他们抓住机会利用澳鹏平台和众包服务。GumGum现在能够根据任务或语言在短短几天内(有时在短短几个小时内)就能完成10,000行数据的标注,需要的时间是之前标注类似规模数据集所需时间的零头。这种效率的提高,使他们的数据科学家再也不必浪费时间和精力进行数据标注,转而从事NLP和CV技术的研究。

“与澳鹏合作使我们的模型开发进度快了10倍,使我们可以更快地进行下一步并考虑扩大音频和视频的规模。”GumGum产品经理Lane Schechter表示。

“获得精确的数据固然重要,而对大型数据集的快速重整对于提高和维护机器学习模型的质量也同样关键。”因此,澳鹏数据的准确性和高产量对于保证GumGum机器学习模型的质量不可或缺。 与大多数竞争对手相比,澳鹏平台更为简洁也易于操作”,Nishimura表示。

“与大多数竞争对手相比,澳鹏平台更为简洁也易于操作。(…)他们的支持大有帮助。我通常会在几分钟内收到回复,不然也会在第二天收到。”——Erica Nishimura,GumGum数据策展人

现在,GumGum不仅可以更高效地创建高质量的数据集,而且还能灵活地为特定用例定制标注工作,并利用我们的专业知识提供指导。GumGum为高质量的ML训练数据创建找到了一站式服务供应商,确保其员工可以集中精力关注业务增长和客户支持。

“现在,我能告诉我的客户成功经理我想要实现的目标,并在澳鹏帮助下完成作业设计、创建和编码,这对我真的太有帮助了。” –––– Erica Nishimura GumGum数据策展人

澳鹏支持多语言的内容相关性标注,包括内容审核、结果评估、行业相关性判断等。