前言
人工智能技术及其应用已经深入各个行业,从业人员的规模呈爆发式增长。知识图谱是人工智能的重要基石之一,是大数据深入发展的时代产物,也是大数据经过挖掘、结构化、语义化之后的知识关联网络。知识图谱既为深度学习提供先验知识,也为用户提供智能服务。知识图谱广泛应用于智能对话、搜索推荐、业务智能等领域,在很多业务实践中具有重要意义。与此同时,由于构建知识图谱的信息来源包括结构化或半结构化的数据,以及文本数据或多媒体数据,涉及自然语言处理领域里的信息提取技术、多模态技术和信息融合技术等,需要进行很多的工程开发工作,因此面临很多挑战。
为什么写作本书
我们应该如何构建知识图谱?如何在工业界应用知识图谱?目前,可供从业人员系统性参考的实践案例资料还比较少。作为专业从事知识图谱技术工作以及在工业界进行过大规模实践的团队,我们长期专注于知识图谱技术在工业界的发展,希望能让更多的从业者或对知识图谱感兴趣的学生了解这一前沿技术及落地方法。为此,我们将以往的项目经验、产品应用和前沿技术知识整理成册,希望通过本书来总结和分享我们的知识图谱工业实践成果。
本书源于阿里巴巴千亿级知识图谱构建与产业化应用的工作总结,阿里巴巴与清华大学、浙江大学、中科院软件所、中科院自动化所和苏州大学共同开展的阿里巴巴藏经阁(知识引擎)研究计划,以及在该计划下发表的数十篇国际顶级学术论文的理论研究成果,以及阿里巴巴-浙江大学前沿技术联合研究中心(AZFT)知识引擎联合实验室持续多年的合作研究工作。本书介绍的成果获得钱伟长中文信息处理科学技术一等奖。
本书主要内容
本书是知识图谱大规模工业实践的经验总结,且包含了知识图谱的前沿学术研究。本书以阿里巴巴的实战经验为中心,以深厚的理论成果为支撑,详细阐述知识图谱的方方面面。首先介绍工业场景下知识图谱的现状、存在的问题和架构设计;然后从知识表示、知识融合、知识获取、知识推理、知识存储和知识图谱前沿方向等方面入手,介绍大规模商品知识图谱的构建方法;最后结合阿里巴巴的业务实践,详细介绍知识图谱的产品设计、技术实现和业务应用细节。通过阅读本书,读者不仅可以从零开始认识知识图谱,了解知识图谱技术方法和前沿技术方向,而且可以熟悉知识图谱工业实践的实现路径,清楚知识图谱的应用方向和方法。
虽然市面上已经出版了多部优秀的知识图谱学术著作,但偏向于实践应用的图书还非常稀缺。本书从工业问题和工业应用入手,应用前沿技术方法,定义并解决面临的技术问题。同时我们也会介绍如何结合内部产品完成技术实现和线上部署。本书力争做到既侧重真实场景下的工业实践,又有深厚的理论研究,将科研与工业实践有机结合。
如何阅读本书
这是一本对知识图谱实践有借鉴意义的图书,读者应该怎样阅读这本书呢?在阅读本书之前,读者应该对人工智能领域的业务应用和基本模型有一定了解。
➢ 第一遍先通读全书,主要厘清知识图谱的相关概念、知识图谱的工业应用方向和各个子领域的技术框架。
➢ 第二遍可以针对感兴趣的章节详细阅读,了解清楚这些子领域的前沿技术研究方向和成果,以及工业实践的技术细节。
➢ 第三遍可以结合自己在工作和学习中遇到的相关问题,根据本书的抽象方法做一些实践工作。
真诚期望本书能对知识图谱感兴趣的学生的学业和未来职业发展有所帮助,对从业人员的工作有一定的指导作用。
本书作者
本书由张伟、陈华钧、张亦弛所著,参与本书编写工作的还有:阿里巴巴的吴夙慧、陈强、张力、林枝萍、戴健、黄志文、巢佳媛、王梁、钭怀啸、张鹏远、王炎、石珺、王沛、杨耀晟、陈辉,浙江大学的张文、邓淑敏、叶橄强、文博、康矫健、张宁豫、李泺秋、叶鹏、朱渝珊、许泽众、余海阳、李娟、毕祯、周虹廷,在此对各位编者的辛勤付出表示衷心的感谢!
致谢
首先要特别感谢曾经指导和支持过阿里巴巴藏经阁(知识引擎)项目的很多老师和领域前辈,包括清华大学的李涓子老师及其团队、中科院软件所的孙乐老师及其团队、苏州大学的张民老师及其团队、中科院自动化所的赵军老师及其团队。同时感谢阿里巴巴-浙江大学前沿技术联合研究中心(AZFT)给予的大力支持。
感谢宋亚东先生和电子工业出版社博文视点对本书的重视,以及为本书出版所做的一切。
由于作者水平有限,书中不足之处在所难免,敬请专家和读者给予批评指正。
作者
2021年7月
读者服务
微信扫码回复:41747
● 加入“知识图谱”读者交流群,与更多同道中人互动。
● 获取【百场业界大咖直播合集】(持续更新),仅需1元。