自动驾驶浪潮下,如何给技术迭代插上数据的“翅膀”?
在自动驾驶时代,无论是对于汽车制造商、零部件厂商还是自动驾驶服务提供商来说,数据都相当于金钱,身处其中的企业都非常清楚这个公式。
去年,滴滴出行与比亚迪合作,推出全球首款定制网约车。该公司CEO程维表示,滴滴计划于2025年推出D3,普及100万辆搭载自动驾驶功能网约车;2030年希望去掉驾驶舱,计划实现完全自动驾驶。
今年初,百度和吉利宣布合资成立一家全新的联网智能汽车公司,基于后者的开放动力底盘平台,结合百度的人工智能、Apollo自动驾驶、小度车载、百度地图等软件,目标是让所有人都能使用自动驾驶汽车。 按照这家合资公司(集度汽车)首席执行官夏一平的话说,公司打算以合理的成本向千家万户提供4级自动驾驶技术,“就像别人希望普及电动汽车一样,我们也希望普及自动驾驶技术。” 而这些企业,不管以何种方式入局“造车”,目的只有一个,希望打造自己的大规模数据训练、功能迭代闭环。 正如行业领头羊特斯拉的玩法一样,在量产中结合车端的智能处理能力识别出不智能的场景,将数据回传,以此迭代算法,不断提高自动驾驶的能力,逐步构建自己的车辆规模和技术壁垒。 另一方面,对于确保自动驾驶行车安全运行方面,高质量的训练数据极其关键。这就要求行业加强审核,避免“garbage in, garbage out”的情况发生。 这就要求,负责训练模型的团队不仅要面对自身专业度的挑战,而且要面对确保数据标注过程质量的巨大挑战。
在这方面,澳鹏可以说是当之无愧的模范生。
破解市场困局 相关研究发现,在AI行业中,有两个层面符合二八法则。 首先,同一个算法的应用中,同样类型技术方案的公司差异会很大。其中的关键就在于数据量。同一个算法对于最后结果的影响,80%来源于数据,20%来源于技术。 简单来说,算法模型本身的优化对于提升AI应用输出的准确率十分有限,而不同AI应用准确率的关键差别在于其中是否有大量的、高质量的训练数据。 其次,很多AI或算法公司在做研发时,80%的时间或人力需要用于处理数据,只有20%用于处理算法与代码。
而实际上,这种做法并不合理。要想精进整体系统的鲁棒性,工程师应该将更多的精力集中于算法或应用层面,而针对数据层面,则可以让更专业的供应商帮助他们提升质量和效率。
另一方面,目前人工智能研究应用的算法,基本基于机器学习和神经网络算法,实战中对训练数据的准确率要求起码要到达90%以上,甚至有的项目要求能够做到99.9%准确率。而更难的地方在于,这不仅是对某一批数据的要求,而是要持续达到这个要求。
有行业人员表示,自动驾驶领域的AI部署需要大量的高质量训练数据,需求增长极快,且需求和场景越来越多样、难度越来越大。随业内需求从2D平面图像转向3D LiDAR数据为主,行业对于标注人员专业度的要求也随之水涨船高。 而标注人员在完成这些数据任务时,可能面临诸多挑战,其中包括:内部标注人员不足和引入的偏差问题、时间限制下难以达到所需的数量规模及准确率。 此外,当前数据行业各个服务商的水平参差不齐,优质头部数据服务商的服务资源稀缺,CR5的集中只有20~30%。业内也普遍缺乏进行复杂标注项目所需的专业工具。这无疑为数据质量带来了更多挑战。
“这也是澳鹏本身创立的初衷。”澳鹏Appen中国区市场拓展高级总监 董成表示。
作为澳大利亚的一家上市公司,澳鹏自1996年创建至今,始终专注于人工智能训练数据的领域,目前在语音、文字、图像和视频等标注领域已积累了25+年的经验。服务范围覆盖170多个国家,235+种语言。全球正式员工 1100+,拥有100万+全球众包资源。截至2020年,公司营收已达4.1亿的美金。 其中国分公司成立于2019年,总部位于上海,在无锡、大连、北京设有交付中心和分公司,业务广泛覆盖全中国及亚太地区,拥有1000+名交付人员。
目前,澳鹏合作客户已遍及国内领先大型互联网公司与高科技企业。 作为数据行业的优质典范,澳鹏拥有强大的交付产能及资源管理优势,服务的客户和项目数以百计。澳鹏无锡、大连交付中心经验丰富的交付团队,处理过2D、3DLiDAR等各种数据和不同客户的业务需求,汽车2D和3D点云的周交付能力超过百万帧;卓越运营中心的管理模式可保证持续的高质量交付。 在自动驾驶领域,澳鹏高精度高性能的自动驾驶工具套装也是其为客户构筑海量数据资产的利器,这也是澳鹏的核心优势之一。
全面保障数据质量 为了适应高速变化的市场形式,澳鹏构建了完整的数据质量全生命周期管理体系,可以从数据的采集、标注、模型训练、数据可视化、模型的部署及再训练等全过程,实现实时自动的模型再训练和改装。 其自主研发的人工智能辅助数据标注平台可支持像素级语义分割、2D图像复合标注、3D点云拉框及语义分割等功能。采标一体的任务能够实现采集-质检-标注-质检-客户验收的双向协同流程,让整个数据生产线上的各个环节实现无缝衔接。内置的多轮质检模块可以按需配置,满足不同复杂度项目的需求。 2D图像复合标注是全结构化的模型训练利器,支持点、线、框、多边型融合标注(常见工具是单模式的,点、线or折线,多边形)与连续帧;另外,此工具还支持像素级语义分割,可将图片中目标对象实例标记出来,并保证像素级的质量。其中丰富的可配置选项可灵活进行id处理,实战中可以做到10分钟/张图。 澳鹏Appen中国区市场拓展高级总监 董成介绍,澳鹏利用ML辅助标注等技术手段提高数据质量,通过预识别系统,让算法先进行预识别,再根据结果进行人为调整,最终在成本控制和质量上实现显著提升。
比如在3D点云数据中,由于车道线本身的多样性(环岛、交叉线)以及外界光照、车辆遮挡等影响,3D点云数据中的车道线标注一直是一个困难且耗时的课题。澳鹏3D点云车道线自动识别的研发是解决这一难题的重大突破。
“我们3D点云拉框可支持自动贴合、连续帧映射,及3D/2D的融合标注,具备目标预识别功能,能灵活配置数据有效性验证规则,可直接在线上让客户做最低交付粒度的验收且可无缝打回。实战中能够做到99.9%准确率, 1秒/帧的极速质检。”澳鹏Appen中国区市场拓展高级总监 董成表示。
此外,澳鹏的每个项目中除了配备专职的项目经理,还有专门的QA/质检人员,Team Leader、等层层把关质量控制;大多数项目都采用多轮质检的方案,保障数据质量无限接近完美。 值得一提的是,澳鹏内部对于安全合规的要求非常高,除了有健全的数据安全管理流程外,澳鹏还为了保障数据安全专门设置了DPO(Data Privacy Officer,数据合规官)。
所有的项目在签单、立项前都需要通过数据合规官的审核、批准,并根据数据合规的要求在项目执行中采取相应的数据保障措施。 “我们对人工智能模型所使用的数据给予最大限度的关注和保护,致力于为客户提供最高级别的数据安全标准,符合全球多项严格的数据安全资质认证。
同时,我们的平台每天都会进行漏洞扫描,最大限度的保证客户数据资产安全。”澳鹏Appen中国区市场拓展高级总监 董成表示。 平台中设有权限管控、数据加密传输、PII信息加密存储等严格的数据安全管控策略,交付管理具体包括:平台进行周期性系统漏洞扫描以免受恶意代码/病毒攻击; 24×7的全球IT支持团队和紧急响应小组确保对IT事件及时响应等等。
目前,澳鹏已在全球获得ISO 27001安全认证,包括位于上海的商务和研发总部、以及无锡和大连的数据服务交付中心。全球范围内,澳鹏亦通过了GDPR,SOC 2 Type II,HIPAA等全球不同国家和地区的数据安全合规认证。 某位与澳鹏合作的客户负责人表示:“澳鹏与我们团队的合作非常顺利,其平台有助于我们确保流程根据项目需求不断被优化。我们也期待这一试点项目能尽快投入生产。”
原文转载自:高工智能汽车
澳鹏为您的模型搭建及AI部署提供全生命周期的数据支持,包括数据采集、标注、模型测试以及数据集。