TensorFlow知识图谱实战
上QQ阅读APP看书,第一时间看更新

1.3.2 知识图谱中的三元组

知识图谱虽然可以总结和提取自然语言,但是提取到的这些知识是由非结构化的自然语言组合而来的,这样有助于人们阅读,却不适合计算机处理。为了让计算机方便处理和理解,我们需要更加形式化、简洁化的方式来表示知识。

针对以上问题,知识图谱引入了三元组这一架构。三元组的模型简单地可以表示为(实体,实体关系,实体)。如果把实体看作结点,把实体关系(包括属性、特征、类别等)看作一条边,那么包含了大量三元组的知识库就成为一个庞大的知识图,如图1.6所示。

图1.6 由三元组构成的知识图

其中,中间的方块表示涉及的主体,四周的图形分别表示不同的属性值。实际上,无论是主体部分还是不同的属性值,这些都是知识库的实体内容。不同的箭头代表不同的关系。通过连线的部分可以用三元组刻画出实体和属性之间的关系。

知识图谱的构建可以由以下3个步骤完成:

  • 数据采集。构建知识图谱是以大量的数据为基础的,需要进行大规模的数据采集。采集的数据来源一般是网络上的公开数据、学术领域已整理的开放数据、商业领域的共享和合作数据,这些数据可能是结构化、半结构化或者非结构化的,数据采集器要适应不同类型的数据。
  • 知识抽取。对数据进行粗加工,将数据提取成实体-关系三元组。根据数据所在的问题领域,抽取方法可分成开放支持抽取和专有领域知识抽取。
  • 知识链接和融合。由于表征知识的实体-关系三元组抽取自不同来源的数据,因此不同的实体可能进一步融合成新的实体,实现在抽象层面的融合。根据融合之后的新实体,三元组集合可以进一步学习和推理,将表达相同或相似含义的不同关系合并成相同关系、检测相同实体对之间的关系冲突等。

知识图谱构建完成之后,形成了一个无向图网络。可以运用一些图论方法进行网络关联分析,将其用于文档、检索以及智能决策等领域。例如,阿里的知识图谱以商品、标准产品、标准品牌、标准条码、标准分类为核心,利用实体识别、实体链指和语义分析技术整合关联了舆情、百科、国家行业标准等9大类一级本体,包含了百亿级别的三元组,形成了巨大的知识网,然后将商品知识图谱广泛地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心、创新业务。