小数据的基础:可操作的数据为AI提供了一条新的前进道路

推特
推特
LinkedIn
分享
脸谱网
fb共享图标

你可能在人工智能的背景下听到了“大数据”这个流行词,但小数据呢?不管你是否意识到,小数据无处不在:它为在线购物体验、航空公司推荐、天气报告等提供了动力。小数据是以可访问和可操作的格式存在的数据,并且很容易被人类理解。数据科学家经常利用小数据来分析当前情况。

机器学习(ML)中小数据的增长可能是由于总体上更大的数据可用性,以及新的数据挖掘技术的试验。随着人工智能行业的发展,数据科学家越来越多地转向小数据,以满足其低水平的计算能力和易用性。

小数据是一种可访问的、可操作的格式,并且容易被人类理解的数据。数据科学家经常利用小数据来分析当前情况。

小数据vs大数据

大数据和小数据到底有什么不同?大数据是由结构化和非结构化数据组成的大数据块。考虑到它的大小,它比小数据更难理解和分析,需要大量的计算机处理能力来解释。

小数据使公司能够获得可操作的见解,而不需要大数据分析所需的复杂算法。因此,公司不必在数据挖掘过程中投入那么多资金。大数据可以通过应用计算机算法转换成小数据,这些算法将数据转换成更小的、可操作的数据块,这些数据块代表较大数据集的组成部分。

从大到小的数据转换的一个例子是在品牌发布期间监控社交媒体。每时每刻都有大量的社交媒体帖子被创建。数据科学家需要根据平台、时间段、关键字和其他相关特性过滤他们想要的数据。这个过程将大数据转换成更小、更易于管理的数据块,从中提取见解。

小数据的好处

我们已经暗示了使用小数据与使用大数据的好处,但有几个值得强调。

大数据更难管理:大规模使用大数据是一项艰巨的工作,需要强大的计算机能力来进行分析。

小数据更容易:分析小块数据可以非常高效地完成,而不需要投入太多时间和精力。这意味着小数据比大数据更具有可操作性。

小数据无处不在:小数据已经广泛应用于许多行业。例如,社交媒体提供了大量可操作字节的数据,可用于各种目的,如营销或其他。

小数据关注终端用户:通过小数据,研究人员可以首先针对终端用户和他们的需求。小数据提供了终端用户行为背后的原因。

在许多用例中,小数据是一种快速、有效的分析方法,可以帮助我们了解跨行业的客户。

ML中的小数据处理方法

在最传统的机器学习方法监督学习中,模型是在大量的标记训练数据上进行训练的。但是,还有许多其他的模型培训方法,由于成本效率和时间节省,其中许多方法越来越受欢迎。虽然这些方法通常依赖于小数据,但在这种情况下,数据质量变得至关重要。

当模型只需要少量数据或模型没有足够的数据时,数据科学家使用小数据。在这些情况下,数据科学家可以使用以下任意一种ML技术。

少镜头学习

通过很少的镜头学习,数据科学家提供了一个包含少量训练数据的ML模型。我们通常在计算机视觉中看到这种方法,模型可能不需要很多示例来识别对象。例如,如果你有一个解锁智能手机的人脸识别算法,那么你的手机不需要数千张你的照片就可以启用它。只需几分钟即可添加安全功能。

这种技术成本低、工作量小,在没有足够的数据在完全监督学习下训练模型的情况下很有吸引力。

知识图

知识图是二级数据集,因为它们是通过过滤原始的、较大的数据形成的。它们由一组定义了含义并描述了特定领域的数据点或标签组成。例如,一个知识图可以包括著名女演员名字的数据点,用线(称为边)连接以前共事过的女演员。知识图是一种非常有用的工具,可以以一种高度可解释和可重用的方式组织知识。

转移学习

迁移学习是将一个ML模型用作另一个需要完成相关任务的模型的起点。它本质上是一种从一个模型到另一个模型的知识转移。以原始模型为起点,可以使用额外的数据进一步训练模型以处理新任务。如果新任务不需要原始模型的组件,也可以对它们进行修剪。

迁移学习在自然语言处理和计算机视觉等需要大量计算能力和数据的领域特别有用。这种方法,如果可以实现,可以提供一个捷径,以获得结果与较少的努力。

Self-supervised学习

自我监督学习背后的想法是让模型从现有的数据中收集监督信号。该模型利用现有数据对未观测到的或隐藏的数据进行预测。例如,在自然语言处理数据中,科学家可以给一个模型一个缺少单词的句子,然后让这个模型预测哪些单词缺失。从未隐藏的单词中获得足够的上下文线索后,模型就会学习识别剩余的单词。

合成数据

当给定的数据集存在现有数据难以填补的空白时,可以利用合成数据。一个流行的例子是面部识别模型。这些模型需要包含所有人类肤色的面部图像数据;问题是,肤色较深的人的照片比肤色较浅的人的照片要少。数据科学家可以人工创建肤色较深的人的数据,以实现平等代表,而不是创建一个难以识别肤色较深的人的模型。但机器学习专家必须在现实世界中更彻底地测试这些模型,并计划在计算机生成的数据集不足的地方添加额外的训练数据。

这里提到的方法并不是一个详尽的列表,但为机器学习的各个方向提供了一幅前景广阔的图画。一般来说,数据科学家正在远离监督学习,转而尝试依赖小数据的方法。

来自Rahul Parundekar的专家见解——数据科学主任

有一点很重要,那就是“小”数据并不意味着少量数据。这意味着需要正确的数据类型来创建生成业务洞察力或自动化决策的模型。我们经常看到一些人,在人工智能所能提供的东西上过分强调,分享一些图片,并期望一个生产质量模型——这不是我们在这里讨论的。我们讨论的是找出最适合创建模型的数据,以便在实际部署时提供所需的正确输出。

在创建“小型”数据集时,请记住以下几点:

数据的相关性

有意识地选择哪些数据将进入数据集。您应该确保它只包含在实际(即在生产中)使用模型时将看到的数据类型。例如,如果您一次对一种制造零件的制造输送线进行缺陷检测,那么您的数据集中的数据是安装在该零件生产线上的摄像头拍摄的有缺陷和无缺陷的图像,以及没有物体时的空输送线图像。

数据多样性vs.重复

重要的是要涵盖您的模型将在实践中看到的所有不同的数据案例,并在这些案例中保持良好的多样性平衡。避免用已经包含的数据过度填充数据集。在缺陷检测示例中,您希望确保捕获无缺陷的对象、具有不同类型缺陷的对象、工厂地板将具有的不同照明条件、皮带上的不同旋转和位置,甚至可能在维护模式中加入一些示例。由于没有缺陷的制造对象与没有缺陷的其他对象是相同的,所以您不需要过度填充。不必要重复的另一个例子是变化很少或没有变化的视频帧。

使用健壮的技术构建

上面列出的处理小数据的方法是一个很好的开始——也许你可以从你已经训练过的类似领域的另一个模型的迁移学习中受益,然后用你的小数据对它进行调整。对于缺陷检测示例,这可能是您以前训练过的另一个缺陷检测模型,而不是对训练的模型进行微调女士可可数据集,这与您在传送带线上的缺陷检测用例不同。

以数据为中心的AI vs.以模型为中心的AI

来自人工智能行业的最新研究表明,如果你找到正确的数据来训练它,那么对性能建模的影响要大得多。找到边缘情况,变化,可以产生更好的结果,而不是用多个超参数,不同的模型架构,或者,一般来说,假设有能力的数据科学家会“弄清楚”。如果您的缺陷检测模型不能很好地检测某些类型的缺陷,那么就投入更多的精力来获得该类型的更多图像,而不是尝试不同的模型体系结构或超参数优化。

与培训数据专家合作:

使用以数据为中心的人工智能,您还希望将调试工作重点放在领域专家更擅长的数据上,而不是数据科学家擅长的模型上。与领域专家合作,在模型失败的情况下确定模式,并假设它可能失败的原因。这将帮助您确定需要获取的正确数据。例如,对象缺陷方面的工程师专家可以帮助您确定模型所需的正确数据的优先级,清除上面提到的嘈杂或不需要的数据,甚至可以指出数据科学家可能用于选择更好的模型体系结构的细微差别。

总而言之,小数据也比大数据更“密集”。您希望在尽可能小的数据集中获得最高质量的数据,使其具有成本效益,并且易于通过上面的一种方法来创建您的“冠军”模型。

我们能为您做些什么

Appen在我们的平台上提供数据收集和注释服务,以大规模改善机器学习。作为我们领域的全球领导者,我们的客户受益于我们的能力,快速交付大量高质量的数据类型,包括图像、视频、语音、音频和文本,以满足您特定的人工智能程序需求。我们提供多种数据解决方案和服务,以最适合您的需求。拥有超过25年的专业经验,我们将与您一起最大限度地优化您的数据管道效率。

为了讨论您的培训数据需求,联系我们

网站部署人工智能与世界级的训练数据
语言