AI和AR/VR的结合：应用类型和方法

12/10/2021

增强现实技术和虚拟现实技术（AR/VR）发展前景广阔，备受各大企业关注。事实上，近四分之三的行业领导者表示，他们预计这些沉浸式技术将于未来五年内成为主流。高盛公司报告称，到2025年，AR/VR行业值将达到950亿美元。同时，与之并驾齐驱的还有AI和机器学习。AI和机器学习不仅正在迅速成为主流，还被视为现代企业的关键任务。

直到最近，科技界才开始展现出AR/VR和AI相结合的力量。两者结合可以推动创新、新的客户体验以及我们与世界互动的新方式。但是，如果没有高质量的数据，两者便无法成功结合。

增强与虚拟现实的AI数据

首先，让我们定义一下AR/VR的含义。

增强现实AR——物理和数字环境的融合，指的是使用来自相机、加速度计等传感器数据的融合将数据叠加在物理现实之上的技术。Pokémon Go就是个著名的示例。

虚拟现实VR——计算机生成的3D图像模拟，使人能够与数字环境交互。

AR/VR领域传统上利用计算机视觉（非AI驱动）等技术推动创新。但许多企业发现，这些技术和人工智能之间有着深刻的互补关系。AI擅长许多有利于AR/VR的操作：AI可以跟踪物体，创建3D世界的详细模型，了解这些模型的特征，并对它们做出判断。

AI中的深度学习模型在这里尤其有用，因为这些模型可以识别垂直面和水平面；跟踪物体的运动和位置；并估计物体深度，以及其他AR/VR同步性。换言之，深度学习模型可以帮助AR/VR系统解释复杂的环境。理论上，汽车修理工可以使用人工智能驱动的AR系统检查汽车引擎，并了解到哪些部件需要修理以及如何修理。

由于这些互补特性，人工智能开始取代AR/VR领域中传统的计算机视觉方法。许多行业领导者预测，人工智能将有助于推动沉浸式技术在消费者和商业领域的应用。具体来说，AI可以使用更逼真的模型，以及赋予人们更强的情景互动能力，从而优化AR/VR体验。

AR/VR和AI的强大合作部分得益于3D模型构建所应用的深度学习技术的进步、数据和数据存储选项（如云）的可用性增加以及计算能力水平的提高。无论出于何种原因，AR/VR和AI的结合均会为许多行业带来激动人心的发展机遇。

企业如何使用人工智能和AR/VR

人工智能在许多方面增强了AR/VR技术：提高内容质量，优化和推进个性化用户体验，促进用户和技术之间更有效地交互。因此，许多初创公司和科技公司纷纷开始使用人工智能驱动的沉浸式技术。以下是几个令人兴奋的示例，值得关注：

航空航天

利用图像识别深度学习技术，AI和AV可以通过确定飞机的哪些部件需要改进并提供有关如何改进的详细说明，协助工程师处理航空维修问题。

零售

零售行业存在许多AI驱动的AR/VR的应用。例如：

当购物者在商店的通道中穿行时，可能会出现在数字环境中的弹出式优惠券。
虚拟陈列室，展示根据购物者兴趣或需求定制的产品。
虚拟试衣间，让顾客在家中舒适地试穿衣服。
AR，可以向客户展示放置在他们自己家中的家具。

军事

AI驱动的VR可以引导军队成员通过模拟的危险环境，旨在降低他们在真实情况中的错误率。

技术

智能眼镜最终可能会成为我们所有人的标准眼镜。与他人相遇时，智能眼镜可以向我们提供关于他们的有用信息。例如，如果我们遇到一位同事，智能眼镜可以识别他在公司担任什么职位。

通讯

AR/VR可能会出现在您身边的虚拟会议中。可能的应用包括提供身临其境的虚拟体验，让用户感觉就像在办公室里和同事们在一起，而不是在家里的电脑前。AI可以添加摄像头跟踪功能（就像Facebook Portal提供的功能），使大家的注意力集中在正在说话的人身上。

安全

安全部门可以利用AI驱动的VR来进行身份检测和标记可疑人物的图像。

游戏

提及AR/VR时，游戏可能是大家想到的第一个例子，特别是几年前席卷世界许多地方的Pokémon Go热潮。事实上，创意产业对AR/VR技术的需求最为强烈，从视频游戏到现场活动和视频娱乐。AI有助于创造越来越逼真的游戏体验，并为玩家提供更多与数字环境互动的机会。

初创公司和科技公司已在努力实现上述的部分应用场景，所以这些都是现实而不是虚构。然而，要在我们的生活中真正实现AI和AR/VR结合的无处不在，可能还需要几年时间。

数据如何推动AI和AR/VR

生成AI驱动的AR/VR系统需要大量数据，因此，数据采集和标注成为构建这类技术过程中的关键步骤。数据可以通过传感器（比如智能手机摄像头）、产品图片、社交网络或其他途径采集。根据不同的应用场景，数据可以包括图像、视频、音频和文本。我们需要标注所有数据的关键特性，以便模型识别。因此，构建这些系统是非常复杂的项目。例如，以下是AI和AR/VR项目中常见的几种数据标注类型：

图像和视频

目标检测：模型学习识别图像中的物体及其位置。这可以触发使用户能够与环境交互的命中框和碰撞体。
分类：模型学习分类图像中的目标对象，然后触发显示该图像的标注。
分割：通常在像素层面进行，模型学习分割图像中的目标对象。

音频

音频识别：模型处理音频，如语音，并作出相应的解释。某些关键词可能会触发AR/VR效果，比如在游戏环境中。

文本

文本识别与翻译: 模型学习检测和读取图像中的文本，然后将其翻译成适当的语言。AR技术可以将译后文本覆盖到现实世界中。

在上述示例中，您可以了解AI和AR/VR技术如何结合为用户提供互动体验。采集的数据越多，环境就可能越真实。在数据质量方面也是如此：高质量数据可以产生同样高质量的环境。此外，数量更多的数据，特别是关于用户本身的数据，可以为用户创建更个性化的环境。

通常情况下，AR/VR数据包含用于创建定制环境和交互的个人身份信息。PII可能包括地理位置数据、生物特征、购买历史和其他PII。在构建这些应用程序时，数据安全至关重要，以确保客户信息受到保护。使用PII意味着要有严格的安全协议，以达到该地区和数据类型的最高合规水平。

与专业数据供应商合作，取得成功

虚拟世界是复杂的，构建虚拟世界并不是一项简单的任务。许多公司寻求第三方数据提供商的帮助，以获得在沉浸式领域的竞争优势。在收集AI和AR/VR模型相关数据方面，数据提供商的作用巨大。合适的数据供应商同样拥有准确标注数据的工具和流程，以确保构建的环境尽可能真实。

与专业的数据供应商合作，您可以设置可扩展数据管道，以帮助您使用新的标注数据来不断改进模型。模型改进与用户体验优化直接相关。随着现实世界的变化，您的虚拟模型也会发生变化，数据提供商会协助您监视系统，以便定期进行再训练。

未来几年，AI有望成为推动AR/VR行业向前发展的引擎，而获取正确的数据并准确地标注数据，则应是引擎发展的动力。数据获取及标注是一项极其复杂的任务。因此，与正确的数据合作伙伴合作，有助于您在竞争中获得关键优势。鉴于人工智能和沉浸式技术的飞速发展，这可能是您人工智能之旅中的重要一步。

澳鹏高级解决方案工程师Don Blaine的专业洞察

从根本上说，出色的AR/VR应用程序需要的是能够理解环境以及用户将如何在该环境中进行交互。

理解环境VR与AR

在VR中，环境是以数字化方式从头开始创建的，这意味着可以基于环境的定义方法明确识别环境的每个组成部分，并以编程方式与其互动。优点是，从一开始，环境和环境中的一切都可以互换，而无需获得任何额外的数据。此外，因为VR环境是从头开始创建的，而不是从物理世界中获取的，所以对于环境的定义更广泛。与在虚拟空间中模拟这些环境相比，捕获满足特定需求的物理环境的过程往往相当乏味。

在AR中，环境是个物理区域，如街道或购物通道，或者是您当前正在查看的区域。由于这个环境是直接从物理世界中获取的，所以这个环境可能比VR环境密度大得多，必须使用一个或多个传感器来捕获数据，以提供激光雷达、雷达、视频、音频、图像等格式的数据，通常是多种数据格式相互结合。

一旦从环境中捕获了数据，我们需要知道环境中有什么。这通常需要创建一个ML模型，用于检测、分类、分割、识别数据中与当前应用相关的组成部分。例如，如果我们有一个汽车在道路上行驶的视频，我们可能需要一个模型，可以识别给定视频每一帧中的每辆车边界。另一个示例可能是识别菜单上的单词，以进行自动翻译。在这两种情况下，我们首先需要创建人工标注的训练数据，其中包括从数据中检测相关区域，从完整数据中分割这些区域，然后对该数据进行分类的个人。最终结果是，就像VR一样，我们创建了一个环境，可以识别某些元素并以编程方式进行互动。如果我们想让用户与环境互动，这是不可或缺的。

与环境互动

在用户与环境交互的方式上，每个应用都是独特的。有时是智能手机，有时是智能眼镜，有时是特定的AR/VR设备。在每种情况下，用户执行的动作必须由设备传感器捕获，然后确定该动作在AR/VR环境中的含义并进行分类。比如，在设备摄像头前打响指。这意味着您的应用程序需要处理视频，捕捉并识别您的手指，然后检测您正在做的动作是“打响指”。要做到这一点，您需要使用人工标注数据来创建一个模型，以识别视频中的手指，以及一个可以确定特定的手的位置的归类的模型。

如何开始

最好的开始方式是完全定义哪些数据可以通过编程捕获，哪些数据需要模型来处理。一旦知道需要创建什么模型后，下一步就是与专业的数据供应商（比如澳鹏）合作，以采集适合该应用场景的训练数据。采集高质量训练数据可能与构建模型本身一样乏味，但模型的好坏取决于模型构建所基于的数据，所以最好尽可能客观地定义您要寻找的数据，以避免任何主观误导。

问问自己：您如何告诉大家判断一个人是否在“打响指”? 只是大拇指和中指之间的接触吗？如果没有声音产生呢？如果他们用拇指和无名指或拇指和食指打响了呢? 一个模型的好坏取决于构建所基于的数据，这就是为何与澳鹏这样的合作伙伴一起开始您的AR/VR之旅，以测试和迭代项目的潜在解决方案，是最好的开始方式。

我们能为您做些什么

澳鹏提供图像、文本、语音、音频和视频采集以及标注服务，帮助企业构建并持续完善全球最具创新性的复杂人工智能系统。在25余年的发展历程中，我们的专业知识源自全球100多万名技能娴熟的众包资源，涵盖235+种语言和方言，同时我们还拥有业内最先进的AI辅助数据标注平台，澳鹏解决方案能够提供全球高科技、汽车、金融服务、零售、制造领域和政府机构的领导者所需的高质量、安全性和高效率。

我们可以在后期制作阶段帮助您的组织进行数据采集、数据标注以及模型再训练和改进。机器学习助手内置在我们行业领先的标注工具中，可以节省您的时间、精力和金钱，提高您在AR/VR或其他AI项目上的投资回报率。

详细了解我们的AR/VR解决方案，立即联系我们。

澳鹏为各AI应用提供全流程的数据支持，助您快速部署高质量的AI应用。

联系我们