数据科学与机器学习自动化:关于AI的自动化状态的了解

推特
推特
LinkedIn
分享
Facebook
fb-share-icon

在过去的十年中,人工智能(AI)建筑的自动化存在许多发展。常常在对话对话中AI的未来,您可以听到对数据科学自动化和机器学习自动化可互换使用的信息。实际上,这些术语具有明显的定义:目前的自动化机器学习(称为AutoML)目标具体参考模型建设的自动化,但数据科学家的作品包括比这更广泛的任务。在最简单的级别,数据科学家从数据中提取知识以解决现实世界问题;机器学习只是他们的阿森纳中的一个工具。

我们看到自动化发生在数据科学生命周期的每个阶段,从数据预处理一直到解决方案的部署。AutoML无疑为这个生命周期中的自动化提供了有价值的开发,特别是在建模阶段。在大多数情况下,自动化针对最耗时、最复杂的任务,使它们更快、更容易。随着这些进步,数据科学家有了更多的时间来做他们所接受的培训:使用数据见解为他们的组织开发差异化的解决方案。

数据科学与机器学习自动化

数据生命周期中的自动化

数据科学生命周期包括数据科学家作为解决方案开发的一部分完成的每个任务。出于我们的目的,我们将看看数据科学家在创建人工智能模型时需要完成的任务。周期的每一步都至少包含某种程度的自动化——考虑到人工智能构建过程中几个步骤的时间密集性,这是一个不足为奇的事实。

数据准备

假设他们考虑到了他们试图解决的问题,数据科学家的第一个任务是收集和准备数据。通常,数据准备要求将其转换为正确的格式,识别错误和修复异常。目前,此步骤部分自动化。数据科学家可以使用简单的启发式或第三方数据清洁工具来清理数据。例如,启发式可以指定自动删除现实范围之外的任何数字。数据清洁工具自动清洁模式,执行统计分析,并根据需要完成其他准备步骤。

为什么数据清洁尚未完全自动化?一个关键的障碍是数据科学家们经常需要对数据进行主观决策。此外,数据集可以包括许多边缘情况;工具或启发式可能无法容纳那些容易的人。

数据探索

数据科学生命周期的下一步是数据探索。在此阶段,数据科学家使用可视化工具来获取数据概述。就像第一步一样,这个阶段只能部分自动化。数据科学家可以自动创建图形,但分析这些图形仍然需要其专业知识。

工程特性

特性工程正逐渐成为AutoML的一部分,并且很可能成为ML进一步自动化的下一个机遇领域。特性工程本身就是从现有的输入中创建新的输入变量(与您试图解决的问题相关)。如果操作正确,特征工程可以通过将模型的注意力吸引到数据中未明确呈现的重要变量上来提高模型的性能。

通过自动化,工具可以从各种表格、文本、地理空间和时间序列数据以及其他来源获得特性。这些工具可以快速评估数百个(如果不是数百万个)特性,并输出与模型最相关的特性。对于数据科学家来说,传统上是手工选择的过程,在自动化的帮助下变得更快、更高效。

模型建立

模型建筑包括模型选择,验证和封立参数优化(HPO)。这是Automl真正闪耀的地方:提供完整的自动化。Automl Tools可以通过各种模型来循环一组输入数据,选择最佳的模型。工具可以自动调整模型,以提高使用HyperParameter优化和重复验证度量的准确性。请注意,Automl Models仍然高度高精度和置信度量;效率不牺牲质量。

有关自动化模型构建的更多信息,请参阅我们关于您需要了解的一切的文章AutoML

持续部署

数据科学生命周期不会在部署时结束。在生产中,每个AI模型都需要连续维护,因此建立再培训管线将为成功至关重要。在这一领域,我们看到为模型提供定期维护检查的自动化工具的出现,确保它们仍然满足准确性和置信阈值。虽然保持一个人仍然有助于human-in-the-loop在这个阶段,自动化取代了完全手动的过程,以更快地解决问题。

一个在行动中的自动化例子:Github副驾驶

作为AI的自动化的真实例子,Github副驾驶员最近推出了。该软件由Openai Codex提供支持,是AI对程序员,可帮助工程师进行编写代码。使用来自您正在开发的代码中的上下文线索,Github Copilot将建议您键入的行或函数。目标是通过提供替代解决方案和测试用例来帮助您更快更轻松地工作。GitHub Copilot只是机器学习自动化的最新令人兴奋的应用之一,在AI和工程中提高效率。

人工智能自动化的未来

当我们展望人工智能的未来时,数据科学自动化和AutoML能告诉我们什么?首先,它告诉我们构建人工智能是有挑战性的,但它正变得越来越容易。对自动化的需求无疑源于这样一个事实:启动一个人工智能解决方案是资源密集型的,需要大量的时间、金钱和专业知识的投资,而这往往是小型组织所禁止的。随着自动化工具的出现,这些进入壁垒将会降低,允许更多的参与者在这个领域进行实验和创新。

随着AI和AutoML的发展,一个事实仍然存在:对高质量训练数据的需求持续增长。人工智能从业者将需要越来越多的数据来改进和精简他们的机器学习模型,以及保持他们在生产中的表现。向外部数据提供商寻求帮助可以为团队提供正确的工具、专业知识和流程,为长期的人工智能目标创建可扩展的数据管道。作为目前最先进的人工智能辅助数据平台,Appen的解决方案是获取足够高质量数据的最可靠来源,以满足这些日益增长的需求

数据科学家呢?机器将消除对其角色的需求吗?它不太可能。数据科学家具有高度专业的域知识,即机器无法匹配。定义和理解问题,使数据的假设 - 这些都是需要主观专业知识的所有任务。正如我们所看到的软件工程所见,当它变得更容易时,对软件工程师的需求只上升;数据科学可能也不例外。

来源

https://techcrunch.com/2020/08/27/will-automation-eLimines-data-science-本地

https://towardsdatascience.com/automation-in-data-science-f11fe389d49b.

https://www.kdnuggets.com/2018/07/Automated-Machine-Learning-vs-automated-data -science.html.

使用世界级培训数据部署AI的网站