探索这个机器学习常见问题,了解机器学习和人工智能的概述,包括不同方法的细节以及如何投资。
什么是机器学习?
机器学习是指通过提供指导,帮助机器自己开发逻辑,并让机器访问你想要它探索的数据集,从而教会机器如何学习的过程。其结果就是某种形式的人工智能(AI)。
“尽管它的名字叫‘人工’,但这项技术并不‘人工’——它是人类制造的,目的是像人类一样行动,影响人类。”因此,如果我们希望它在未来的世界发挥积极作用,它必须以人类的关切为指导。”
- Fei-Fei Li在“以人为本的AI”,纽约时报
机器学习是如何工作的?
计算机遵循规则。这些规则也称为算法。当他们首次开始学习时,它们会探讨初始数据集。该数据称为培训数据。
计算机开始识别模式并根据算法和培训数据做出决策。根据所使用的机器类型的类型,当他们做出正确的决定或对其最终目标采取积极的一步时,它们也将获得击中或接收奖励的目标。由于它们构建此理解或“学习”,他们通过一系列步骤将新的输入转换为输出,该输出可能包括品牌新数据集,标记数据,决策甚至操作。
其理念是,机器学习足够多的知识,无需任何人工干预即可操作。通过这种方式,他们开始开发和展示我们所说的人工智能。机器学习是人工智能创造的主要方式之一。
人工智能的其他示例包括机器人,语音识别和自然语言生成,所有这些都需要一些机器学习的元素。有许多不同的理由来实现机器学习和途径的方法。还有各种机器学习算法和类型和培训数据来源。
为什么机器学习很快地生长?
近年来,已经有三件事有助于对机器学习的广泛兴趣。
- 所有类型数据的增长
- 存储成本下降
- 计算机能力的巨大进步
与任何事情一样,有证据表明其他有贡献的因素和商业司机,但这三个进步在铺平了加速使用机器学习和人工智能的新的和创新应用方面,这三大进展明显占主导地位。
为什么投资机器学习?
公共和私营部门的组织都在投资机器学习,因为它可以让他们以以下方式改进:
- 速度.更快地得到答案和执行复杂的计算。
- 权力.处理更多的数据,进行更复杂的分析比以往任何时候。
- 情报.通过挖掘以前无法解读的真实世界数据来发现新的见解。
- 效率.用更少的人力资源进行更多的分析。
无论你身处哪个行业,你都有可能找到一个可靠的机器学习案例,并能够通过预期的利润和/或利润数字来证明投资的合理性。
机器学习已被证明可以减少甚至消除手动数据输入、检测垃圾邮件、打击欺诈和推荐产品。它可以用来预测何时需要对设备和基础设施进行维护,它可以告诉您比您以前所知道的更多有关客户的信息,并提高客户满意度。
如果您还没有投资机器学习,则需要问自己:为什么不呢?
机器学习的用途是什么?
机器学习的用例非常广泛、多样,而且仍在探索中,因此我们将重点介绍机器学习在五个常见领域的应用。
零售和电子商务
人工智能和机器学习正被用于提高转化率、改善客户体验、提供个性化服务等
- 搜索的相关性. 网上购物者不必奢侈地问售货员在哪里可以找到产品。您的现场搜索引擎履行这个角色。通过解释搜索查询,评估用户意图,并使用这些信息来训练你的搜索算法,结果变得更加相关,从而导致更高的购买转化率。
- 个性化.根据其过去的行为为购物者或搜索结果提供建议可以帮助创造更强的用户参与和保留。
- 加强客户服务.聊天机器人扮演一个虚拟购物助理。像员工一样,他们需要接受培训,不仅要知道你卖的是什么,还要知道人们在你的网站上使用的许多产品的术语。
科技
搜索引擎和其他领先的技术公司使用机器学习来明确编程他们的人工智能,以提供创新产品和改善用户体验
- 搜索的相关性.搜索引擎算法使用机器学习来推动更强的用户参与度。通过解释查询和评估用户意图,搜索结果变得更加相关,从而创造更高的用户满意度。
- 个性化. 分析数据活动和偏好可以帮助搜索引擎和社交媒体提供商个性化内容提要和推荐,增强在线客户体验。
- 自然语言处理(NLP).例如,NLP可以分析语言模式来理解可能使用口语或社交媒体上其他自然模式的文本。这种技术可以用来跟踪客户的情绪,并制定参与策略。
- 金融服务.金融服务领域的领导者使用机器学习和人工智能来提高客户获取、留住和整体体验
- 风险管理.反洗钱(AML),了解您的客户(kyc),欺诈检测程序需要先进的工具来发现潜在的威胁。仅仅依靠人类员工,在金融记录中发现模式可能会耗时和昂贵。机器学习和人工智能允许金融机构通过数据筛选并快速寻找异常,防止非法活动并节省潜在公司损失。
- 创收.如今,金融机构正利用机器学习算法来制定投资策略,从而让金融顾问腾出时间,更多地与客户打交道。
- 增强的客户体验.随着人们对按需客户服务的期待越来越高,聊天机器人扮演着至关重要的角色。聊天机器人通过实时反馈和简化的体验来取悦客户。
汽车
利用自动驾驶汽车的训练数据加速机器学习,并通过更准确的现场测试改善语音识别系统、车内导航和用户体验
- 自动车辆.虽然自动驾驶汽车是极其复杂的机器,但他们的神经网络由机器学习提供动力。随着汽车向前移动时,它处理大量的视觉数据 - 在挡风玻璃时会像司机一样。车辆需要将含义分配到大量的图像数据,例如识别树或行人,然后喂回汽车的AI以教授它。
- 语音识别. 传统的仪表盘和移动设备使驾驶员的手和眼睛远离道路。语音接口不支持。联网汽车需要接入大规模语音数据收集培训语音界面,以最佳的用户体验为世界各地提供消费者。
- 预测行为.语音识别和跟踪驾驶员情绪的摄像头的进步是人机界面的重要下一步,使汽车能够识别说话者的情绪和他们的语言——这样它们就能知道用户什么时候感到沮丧,并作出相应的反应。
政府
利用安全的数据服务改进应急响应、防御计划和执法
- 国防.通过使用社交媒体监控、计算机视觉和数据注释,政府机构现在能够提取信息,以帮助恐怖分子监控、监控国家安全威胁等。
- 国家紧急情况.自然灾害或协同攻击等紧急情况可能会在没有任何通知的情况下发生。当生命受到威胁时,立即做出反应和协调是关键。通过翻译、语音识别和文本数据收集,世界各地的紧急救援人员可以使用机器与处于危险中的人进行有效沟通。
- 执法. 安全转录允许执法部门完成许多目标,包括从随身携带的视频中捕获文件、官方记录保存和档案记录解决方案。
医疗保健
人工智能(AI)和医疗保健机器学习的令人兴奋的用途正在转化患者护理
- 预测分析.评估趋势,预测疫情爆发,并预测患者需求。
- 聊天和虚拟医疗保健.提供更快更好的客户服务。
- 承销概况.利用机器学习建立基于各种数据点的更强大的承保模型。
“大多数人类和动物的学习都是非监督学习。如果智力是一块蛋糕,那么非监督学习就是蛋糕,监督学习就是蛋糕上的糖衣,强化学习就是蛋糕上的樱桃。我们知道怎么做糖霜和樱桃,但我们不知道怎么做蛋糕。在我们想到真正的人工智能之前,我们需要解决无监督学习问题。”
- 颜乐坤,Facebook人工智能研究总监
顶级机器学习方法是什么?
监督学习
监督学习算法被设计用来根据实例或训练数据确定预测模型。这些数据集包含与正确输出变量配对的输入变量。然后,该算法的任务是分析数据,并生成一个函数,准确地将输入映射到相应的输出。一旦经过训练,算法就可以继续预测给定的任何新数据的结果。
- 分类–分类是最容易理解的。对数据进行评估以确定它属于哪一类。例如,机器学习模型要求机器确定图片是否是马的。这是一个简单的yes/no响应和一个二进制分类的例子。在提供足够的马和非马图片的训练数据,使机器能够学习马的区别特征之后,机器将能够自己查看图片并告诉您它是否是马。
- 回归-不是将数据分离并分配给一个类,而是要求机器根据从初始训练数据得到的响应来预测一个响应或输出。一个简单的例子是,如果初始输入3和5的目标是8,那么学习到的逻辑将是将这两个输入相加。最终,该模型将使用回归分析来预测投入4和6的目标为10。监督学习是面向任务的;即:“给我找到目标XYZ。”
半监督学习
半监督学习是一种混合模型。使用半监督深度学习的算法是在标记和未标记数据的组合上训练的。这种方法可能更实用,因为让数据科学家或数据工程师标记数据可能会很昂贵。其他情况下,采用这种方法是因为数据的大小非常庞大,因此标记数据的任务将非常繁重。团队采用混合方法的另一个原因是为了避免在工作中可能发生的任何人类偏见数据标签.
“在没有证据之前就下结论是最大的错误。不知不觉地,人们开始歪曲事实以适应理论,而不是理论以适应事实。”福尔摩斯
在半监督学习中,您的模型可能受益,并且能够通过一些目标或标记数据更快地工作,而它所做的使未标记数据有意义的工作可能会揭示见解,并提供您尚未发现的输出。在许多情况下,这是一种双赢的方法,也是一种常用的方法。
加强学习
强化学习是最抽象的方法,完全基于机器,通常被称为“学习代理”,通过尝试和错误学习。机器根据奖励的定义来决定在给定的环境中采取何种行动来最大化其性能。这种试错行为被称为探索。它通过了解哪些行为可以获得奖励而获得的知识被称为剥削。
通过对其环境的探索和开发,在先进的机器学习算法的推动下,学习代理最终获得了足够的知识,开始展示近乎人类水平的人工智能。
机器人提供了加强学习的最佳例子。他们的工厂用途严重依赖于他们使用加强学习的能力,以根据需要对其环境进行适应,并完整的人类任务和行为不断提高误差率。
机器学习需要什么样的数据?
“机器学习只能和你用来训练它的数据一样好。”
- Daniel Tunkelang,领英Endeca的机器学习项目负责人
有很多文章都强调了确保你有足够的正确数据来支持你的机器学习项目的重要性。
正如上面引用的敦克朗在文章中继续解释的那样机器学习:每个人都需要了解的10个事实“你可以在没有复杂的算法的情况下拥有机器学习,但不是没有良好的数据。”
那么你需要什么样的数据?这取决于。
结构化数据与非结构化数据
- 结构化数据结构化数据是有逻辑地组织起来的,便于计算机阅读和理解。它可以是从ERP或CRM系统中提取的机器生成的事务性数据,也可以是关于来自传感器的动作的简单时间戳数据。它也可以是人工生成的数据输入到电子表格中。这种类型的数据最常用于监督学习,而且通常可以很快地处理,即使是在非常大的容量下。
- 非结构化数据-据行业领导者称,全球80%以上的数据是非结构化的,数据量呈指数级增长。非结构化数据无处不在。人工生成的非结构化数据包括MS word和其他文本文件、演示文稿、视频、图像、音频、社交媒体帖子等。机器生成的非结构化数据包括监控录像、卫星图像和科学数据。监督学习和强化学习是不可思议的工具,可以应用于获得见解,并比以往任何时候都更多地处理非结构化数据。
机器学习需要多少数据?
简短的回答是:很多。世界上最好的算法在数据不足的情况下很难得到正确的结果。
人工智能技术需要对模型进行再训练,以匹配潜在的变化情况,因此训练数据必须经常更新。三分之一的情况下,型号需要至少每月更新一次,几乎四分之一的情况下需要每天更新一次。”
- 麦肯锡全球研究所, AI前沿笔记
为什么?更大的体积驱动器更高的准确性。
原因有很多。用一台计算机学习大量的数据是一个令人难以置信的原因。
例如,考虑语音识别应用程序和由性别、年龄、方言等差异引起的语音变化。一些专家说,一个模型需要至少1万个小时的音频才能以适度的准确度输出。其他人说,虽然所需的数据总量取决于模型或问题的复杂性,100000个实例是最低要求对于大多数模型。
“质量”的事情?
是的!也许比数量更重要。
“更多的数据胜过聪明的算法,但更好的数据胜过更多的数据。”
- 彼得诺维格,计算机科学家,谷歌和行业领袖
是什么让数据变得“糟糕?”它可能与您的问题无关、注释不准确、误导或不完整。在这些情况下,需要进行一些数据清理或准备。
如果您的模型是任务的分类数据,则您的培训数据可能必须首先标记。有时格式化是一个问题。例如,如果您使用图像数据,则可能需要调整图像,以便模型分析相同长度的向量。
您使用的任何数据都需要一些清理。专家报告说,需要完成的工作不会以提取,转换和加载(ETL)的数据结束。即使在此之后,所需的清理需要适合数据科学通常代表平均值占总工作量的80%在任何机器学习项目中。
机器学习常见问题解答附加资源
随着用例的不断扩展,您将希望跟上所有改进模型和为客户创建更好产品的方法的速度。
机器学习词汇表
- 人工智能(AI)–机器独立运行以完成通常需要人类智能的任务和活动的能力。
- 聊天机器人,聊天机器人是一种虚拟助手,它通过模拟典型的对话线程与人类进行交流。它通常通过互联网发送,并嵌入到一个网站或移动应用程序中。
- 数据分类-数据可按人或机器分类,是将特定类别分配给具有相同特征(如日期、来源、类型等)的数据的过程。目的是使数据更易于理解、分析或使用。
- 数据标签 -数据标注是由人来完成的,这是一个添加标签的过程,为机器提供了用于监督机器学习模型的目标。
- 机器学习-机器学习是通过向机器提供指导,帮助它们自己开发逻辑,并访问你想让它们探索的数据,来教它们如何学习的过程。
- 强化学习-当一台机器或一个代理被赋予一个数据集时,一组关于如何探索该数据的规则,以及对它的性能何时会得到奖励的清晰理解。在探索数据及其“环境”时,机器通过反复试验学习获得奖励和实现目标的最有效方法。
- 结构数据 -世界上只有20%的数据被认为是“结构化的”。结构化数据的组织方式使计算机分析和解释变得容易。它通常出现在关系数据库、电子表格和企业系统(如CRM、ERP和金融应用程序)中。
- 监督学习,监督学习模型是当今使用的机器学习中最简单和最准确的例子。通过监督学习,机器被提供一组结构化的数据,其中包括输入数据和标记为“目标”数据或期望输出的数据。机器从这些例子中学习了将输入转换为输出所用的逻辑,因此最终它只需要输入,并可以独立创建目标输出。
- 训练数据,训练数据是机器学习项目中用来开始向机器传授项目目标的逻辑、行为或其他智能形式的数据。一旦模型消耗了足够的数据来工作,它将得到测试数据,在项目被声明为成功之前,它将使用验证数据运行。
- 非结构化数据-世界上80%的数据并没有以一种容易解释或分析的方式组织起来。例如文本和聊天信息、录制的音频、视频和社交媒体帖子。
- 无监督学习,给出了机器的数据尚未标记。它是机器的工作和模型,以找到数据之间的相关性,模式或关系,并将这些见解作为输出传递。