小数据 vs 大数据：为AI另辟蹊径的可操作数据

10/22/2021

在人工智能背景下，您可能已听说过“大数据”这一流行语，那“小数据”这一词呢，您有听说过吗？无论您听过与否，小数据都无处不在：线上购物体验、航空公司推荐、天气预报等均依托小数据。小数据即一种采用可访问和可操作格式，且易于人类理解的数据。通常，数据科学家会利用小数据分析现状。在机器学习（ML）领域，小数据的应用越来越多，这很大可能是因为数据可用性的普遍增强，以及新数据挖掘技术的试验。随着AI在各行各业的发展，数据科学家越来越多地关注小数据，因为小数据只需要低水平的计算能力，且易于使用。

小数据与大数据

与大数据相比，小数据到底有何不同? 大数据由大块的结构化和非结构化数据组成。大数据规模庞大，比小数据更难理解和分析，需要高水平的计算机处理能力来解释。小数据能够为公司提供可操作的洞察，而不是像大数据分析一样，需要复杂的算法。因此，公司不需要在数据挖掘过程投入太多。通过应用计算机算法，可以将大数据转换成小数据。这些计算机算法将数据转换成可操作的小数据块，每个小数据块都是大数据集的组成部分。大数据转换成小数据的一个示例：在品牌发布期间，对社交媒体进行监控。网上每分每秒都会涌现大量的社交媒体帖子。数据科学家需要根据发布平台、时间段、关键词或其他相关特征，对数据进行筛选。这一过程将大数据转换成更易于管理的数据块，可以从中获取相关洞察。

小数据的优势

在上文中，我们提及了小数据较之大数据的优势，但有几点仍值得强调。 大数据的管理难度高：大规模使用大数据是一项艰巨任务，数据分析需要依靠强大的计算机能力。 小数据的管理难度低：小数据块分析的效率高，不需要投入太多的时间和精力。这意味着小数据比大数据更具有可操作性。 小数据无所不在: 许多行业已在广泛应用小数据。例如，社交媒体提供了大量可操作的数据，这些数据的用途各异，比如市场营销或其他用途。 小数据关注终端用户：通过小数据，研究人员可以关注终端用户，将用户需求放在首位。小数据可以用来解释终端用户的行为动机。在许多应用场景中，小数据是一种快速、有效的分析方法，可以帮助我们深入了解各行业的客户。

机器学习中的小数据处理方法

监督学习是最传统的机器学习方法，是指利用大量标注的训练数据来训练模型。但除此以外，还有许多模型训练方法。其中，还有很多训练方法成本效益高、耗时低，越来越备受青睐。虽然这些方法要经常依赖于小数据，但在这种情况下，数据质量变得至关重要。当模型只需要少量数据或模型训练数据不足时，数据科学家就会使用小数据。此时，数据科学家可以使用以下任何一种机器学习技术。

少样本学习

通过少样本学习技术，数据科学家为机器学习模型提供少量训练数据。少样本学习技术经常应用于计算机视觉领域。在计算机视觉中，模型可能不需要很多示例来识别某一对象。例如，如果具有用于解锁智能手机的面部识别算法，则无需数千张您的照片便可开启手机。手机只需要几张照片，就可以开启安全功能。少样本学习技术成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时，就非常适合使用少样本学习。

知识图谱

知识图谱属于二级数据集，因为知识图谱是通过筛选原始的大数据而形成的。知识图谱由一组具有定义含义并描述特定域的数据点或标签组成。例如，一个知识图谱可能由一系列著名女演员名字的数据点组成，共事过的女演员之间以线（或称之为边）连接起来。知识图谱是一种非常有用的工具，以一种高度可解释和可重复使用的方式组织知识。

迁移学习

当一个机器学习模型作为另一模型的训练起点，以帮助此模型完成相关任务时，就需要用到迁移学习技术。从本质上讲，是将一个模型的知识迁移到另一个模型。以原始模型为起点，再使用额外数据来进一步训练模型，从而培养模型处理新任务的能力。如果新任务不需要原始模型的某些构成部分，也可以将其删除。在自然语言处理和计算机视觉等需要大量计算能力和数据的领域，迁移学习技术尤为有效。应用迁移学习技术可以减少任务的工作量和所需时间。

自监督学习

自监督学习的原理是，让模型从现有的数据中收集监督信号。模型利用现有数据来预测未观测到的或隐藏的数据。例如，在自然语言处理中，数据科学家可能会在模型中输入一个缺少单词的句子，然后让这个模型预测所缺少的单词。从未隐藏的单词中获得足够的背景线索后，模型便学会识别句中隐藏的单词。

合成数据

当给定数据集存在缺失，而现有数据无法填补时，就可以利用合成数据。比较普遍的示例是面部识别模型。面部识别模型需要包含人类全部肤色的面部图像数据；但问题是，深色人脸的照片比浅色人脸的照片数据要少。数据科学家可以人工创建深色人脸数据，以实现其代表的平等性，而不是创建一个难以识别深色人脸的模型。但机器学习专家必须在现实世界中更彻底地测试这些模型，并在计算机生成的数据集不足时，添加额外的训练数据。本文所提到的方法并不详尽，但也展现出机器学习多方向发展的前景。一般而言，数据科学家正在减少使用监督学习技术，转向尝试依赖小数据的方法。

数据科学总监Rahul Parundekar的专业洞察

明确小数据的“小”并不代表数据量小，这一点尤为重要。小数据是指使用符合需求的数据类型构建模型，从而生成商业洞察和实现自动化决策。我们经常会看到有人对AI功能期望过高，仅仅收集几张图片数据，就期望获得一个高质量的模型，但这不是我们在这里要讨论的内容。我们讨论的是，找出最适合用于模型构建的数据，在实际部署时，模型可以输出正确内容，满足您的需求。以下是在创建“小”数据集时需要谨记的一些事项：

数据相关性

明确数据集构成数据的类型，选择正确的数据。您应确保数据集只包含模型在实践中（或生产中）接触到的数据类型。例如，如果您对一条生产输送线的一种产品进行缺陷检测，您就应该准备一组包含有缺陷和无缺陷零件、传送带上无物体的图像数据集，并输入安装在这条生产输送线上的摄像机中。

数据多样性与重复性

重要的是，涵盖模型在实践中可能接触到的所有数据应用场景，且要保证各类数据之间的平衡。不要使用已有数据来填充数据集，以避免出现数据填充过度问题。在缺陷检测示例中，您要确保模型可以捕获无缺陷物品、有不同类型缺陷的物品，无论是在工厂车间不同的照明条件下，在传送带上的各种旋转和位置，还是在维护模式下可能会出现的几个样品。因为没有缺陷的成品都一样，您不需要过度填充这类数据。另一个不必要重复的示例是变化很少或没有变化的视频帧。

依靠强劲技术构建

上文提及的小数据处理技术提供了坚实的技术基础。也许，您可以从迁移学习技术中获益，这种技术将经过训练且性能较佳的模型的知识迁移到相关领域的另一模型，并利用小数据来修正新模型。对于缺陷检测示例，这可能是您先前训练过的另一个缺陷检测模型，而不是修正基于MS COCO数据集来训练的模型，这与您在传送带线场景上的缺陷检测不同。

以数据为中心的AI与以模型为中心的AI

AI行业的最新研究表明，如果通过合适的数据训练模型，模型性能会受到更大的影响。通过找到边缘数据和数据差别，就可以产生更佳结果，而不是使用多个超参数、不同的模型架构，总之，就是假设有能力的数据科学家会“弄清楚”。如果缺陷检测模型无法准确地检测某些类型的缺陷，您应该投入更多精力来增加这些类型的图像数据，而不是尝试不同的模型架构或超参数优化。

与训练数据专家合作

对于以数据为中心的AI，您也希望将调试工作集中在领域专家更擅长的数据工作上，而不是数据科学家擅长的模型工作上。在模型失败的情况下，与领域专家一起确定模式，并假设模型可能的失败原因。这有利于帮助您确定所需的正确数据。例如，对象缺陷工程师专家可以帮助您确定模型所需的正确数据的优先级，清理上文提到的噪音或不需要的数据，甚至可能会指出，数据科学家可能用于选择更好的模型架构的细微差别。总而言之，小数据比大数据更“密集”。您希望在尽可能小的数据集中获得最高质量的数据，使数据具有成本效益，并且可以通过上文所述的任一种技术来构建您的“冠军”模型。

澳鹏能为您做什么

澳鹏提供数据采集和标注服务平台，以提升大规模机器学习质量。作为该领域的全球领导者，我们的客户将从我们的能力中受益，我们能够快速地在多种数据类型中提供大量高质量的数据，包括图像、视频、语音、音频和文本，以满足您特定的人工智能部署需求。我们提供多种数据解决方案和服务，百分百满足您的需求。我们拥有超过25年的专业经验，与您携手最大限度地优化数据传输效率。联系我们，了解您的训练数据需求。

澳鹏在训练数据领域已有28+年经验，服务全球超过15000个人工智能项目，为您的AI部署提供高质量训练数据。

联系我们