TensorFlow知识图谱实战
上QQ阅读APP看书,第一时间看更新

1.1.1 自然语言处理是门技术

2018年谷歌在开发者大会上演示了一个预约理发店的聊天机器人,语气惟妙惟肖,表现令人惊艳。相信很多读者都接到过人工智能的推销电话,不去仔细分辨根本不知道电话那头只是一个自然语言处理程序。

“人机对话”“机器人客服”“文档结构化处理”是自然语言处理应用最为广泛的三个部分,也是商业价值较高的一些方向。除此之外,还有文本写作、机器人作诗等一些带有娱乐性质的应用。这些统统是“自然语言处理”。

自然语言处理是研究计算机处理人类语言的一门技术,包括:

  • 句法语义分析——对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语义角色识别、多义词消歧。
  • 信息抽取——从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等,通俗地说就是要了解谁在什么时候、什么原因、对谁、做了什么事、有什么结果,涉及实体识别、时间抽取、因果关系抽取等关键技术。
  • 文本挖掘(或者文本数据挖掘)——包括文本聚类、分类、信息抽取、摘要、情感分析以及对挖掘的信息和知识的可视化、交互式的表达界面。目前主流的技术都基于统计机器学习。
  • 机器翻译——把输入的源语言文本通过自动翻译获得另外一种语言的文本。根据输入媒介不同,可以细分为文本翻译、语音翻译、手语翻译、图形翻译等。机器翻译从最早的基于规则的方法到20年前的基于统计的方法,再到基于神经网络(编码-解码)的方法,逐渐形成一套比较严谨的方法体系。
  • 信息检索——对大规模的文档进行索引。可简单对文档中的词汇赋以不同的权重来建立索引,也可使用算法模型来建立更加深层的索引。在查询的时候,对输入的查询表达式(比如一个检索词或者一个句子)进行分析,然后在索引里面查找匹配的候选文档,再根据一个排序机制把候选文档排序,最后输出排序得分最高的文档。
  • 问答系统——对一个自然语言表达的问题由问答系统给出一个精准的答案。需要对自然语言查询语句进行某种程度的语义分析,包括实体链接、关系识别,形成逻辑表达式,然后到知识库中查找可能的候选答案并通过一个排序机制找出最佳答案。
  • 对话系统——系统通过一系列对话跟用户进行聊天、回答、完成某一项任务,涉及用户意图理解、通用聊天引擎、问答引擎、对话管理等技术。此外,为了体现上下文相关,要具备多轮对话能力。同时,为了体现个性化,要开发用户画像以及基于用户画像的个性化回复。

当然,实际上自然语言处理并不仅限于上文所说的这些,随着人们对深度学习的了解,更多应用正在不停地开发出来,相信读者会亲眼见证这一切的发生。