与刘菲一起简单介绍NLP
你和聊天机器人互动过吗?或者向Siri、Alexa或汽车信息娱乐系统等虚拟助手请求什么?在线翻译怎么样?我们大多数人以前都接触过这种类型的人工智能(AI),从来没有停下来思考过如何轻松地交流我们的需求,并得到适当的回应。但让我们暂停一下,反思一下人类语言的复杂性,机器能与我们交流难道不是一个奇迹吗?
这都要归功于自然语言处理。但什么是自然语言处理(NLP)?自然语言处理技术是用来教计算机如何理解并以类似人类的方式产生适当的响应的技术。通过NLP,机器可以学习阅读、破译和解释人类的书面和口头语言,并以类似人类的方式创建描述、总结或解释输入(结构化数据)的叙述。自然语言处理是许多人工智能解决方案背后的驱动力,你经常与之互动,并使人与机器之间的理解。
如今,由于数据访问的巨大改进并增加计算能力,NLP越来越受欢迎。
为什么自然语言处理很困难
NLP可能具有挑战性。但为什么自然语言处理困难?计算机的母语,在其基础级别,只是数百万的集合和零,是一个是的二元品种和否。计算机不会像人类一样思考 - 他们逻辑地思考。当您与AI动力计算机通信时,该机器必须以某种方式了解并解释所说的内容,计算适当的响应,并转换对人(或自然)语言的响应 - 所有这些都在毫秒的问题中。很难想象处理能力水平自然语言处理技术的复杂性这个壮举所需的,计算机一直在这样做。
也不应该低估自然语言的复杂性。人类以无限的方式表达自己。有数百种语言和方言,每个语言和方言都有自己的语法规则和俚语,可能会有所不同地写入或说出语言。个人也彼此写作和说话。有些人可以与Lisp交谈,例如或用缩写写入。对于计算机来了解所有这些偏差,必须以前遇到它们。它必须培训在类似的数据上。另一个挑战是培训语料库应该是预期应用的同一领域。例如,在医疗环境中收集的对话与客户支持域的对话不同数据收集更具挑战性,因为它很难,但需要收集来自右侧域的数据。
这些因素都造成了执行自然资源计划的困难。您必须能够访问大量的自然语言数据,以便计算机能够进行广泛的交互。为这些交互服务、在1和0之间架起桥梁以及自然语言的计算能力是至关重要的。难怪NLP最近才成为机器学习的重要组成部分。
自然语言处理技术
NLP将语言分解为更短的段,以了解段之间的关系以及它们如何连接以创建含义。这两种语言组件是语法(句子中的单词排列,以便他们做出语法意义)和语义(由文本传达的含义)。在每个类别中都是核心自然语言处理技术包括:
语法分析
下面是一些机器用来分析语法的标准方法:
- 分割:将句子分成较小的碎片。
- 词基化:将一个词还原到其词根,并将词根相似的词分组。
- 词性标注:识别每个词的词性。
- 词干化:去掉词缀和后缀以获得词根。
请注意,这些只是许多语法分析方法中的一个选择。
语义分析
以下是机器用来分析意义的两种常用方法:
- 命名实体识别:识别预设组(例如人员和地点)并分类它们。
- 词义消歧:根据上下文赋予单词意义。
机器可以使用上述技术的组合来从给定的文本中派生语法和语义。
自然语言处理能做什么?
在实用,日常条款中,使用的NLP是什么?NLP有许多用例。它通过使机器能够执行否则将由人类完成的重复任务来帮助缩放与语言相关的任务。各种行业使用NLP,包括:
- 社交媒体分析:NLP可以跟踪关于品牌、产品或特定话题的情绪,并确定客户如何做出选择。它还可以通过检测政治偏见过滤假新闻。
- 语音应用程序:文本到语音应用程序以更大的方式提供更多方法,并为呼叫中心,视频游戏和语言教育领域创造更丰富的互动体验。
- 个人助理和聊天伙伴:NLP使人工智能能够与人类进行日常问题和交易的交流,使人类得以自由地进行更高层次的战略性工作。
- 搜索查询。特别是在电子商务中,NLP帮助识别关键搜索词,以推动更多相关的搜索结果。
- 语言翻译:NLP用于翻译各种语言和方言。
- 信息提取:例如,在医疗保健领域用于患者记录时,通过NLP提取数据对于快速提取关键信息至关重要。
虽然这个列表并不是详尽无遗的,但它说明了自然语言处理已经取得的令人难以置信的进展。使用自然语言处理的例子越来越多,这只是一个开始。
NLP的变革力量将继续影响我们与技术的互动。毫无疑问,随着人类和机器通信之间的鸿沟进一步缩小,我们将在这个领域看到更多的突破。
来自Appen NLP专家菲比·刘的见解
在Appen,我们依靠我们的专家团队来帮助您建立利用NLP的模型,可实现优质的客户体验。Phoebe Liu, one of our senior data scientists, who was also a speaker at the O’Reilly and KDD conferences, featured on BBC and Al Jazeera documentary series for work in conversational robotics, and winner of the Best Picture award at the 2018 Robot Film Festival, works to ensure Appen customer NLP models are executed successfully. Phoebe’s top three insights on natural language processing include:
1。最成功的项目开始了解业务问题和要求。这有助于定义应如何收集数据,谁应该注释您的培训课程,并确定数据收集过程中是否需要域专家或语言学家。采用清晰,明确的问题定义和NLP在该解决方案中的作用。
2。通过用户测试确保用户满意度。用于自动语音识别,用具有不同口音的扬声器测试和不同的方式说同样的方式。对于Chatbot和语音AI的NLU,与自然交互的用户测试,就像他们与另一个人聊天一样。您在现实世界中进行用户测试越多,互动的更顺畅将在您的用户和NLP系统之间。
3.ML模型并不是魔法-当NLP不能产生100%准确的结果时,设计“后备”方法。NLP仍然是一个不断发展的领域,需要领域专业知识和良好的培训语料库来正确实施。确保有一个备份计划并管理NLP输出(请思考循环),以应付NLP不足的关键时刻。
发生在你身上的事
在Appen,我们的自然语言处理专业知识跨越了20多年,在此期间,我们获得了成功NLP项目的最佳公式方面的先进资源和专业知识。多亏了我们团队的支持还有像菲比这样的专家Appen数据标注平台,我们为您提供高质量的培训数据,您需要大规模部署世界级的模型。无论您的NLP需求是什么,我们都随时准备协助您部署和维护您的AI和ML项目。