入门 | 知识图谱简介

磐创AI

专注分享原创AI技术文章

入门 | 知识图谱简介作者 | Walker

编辑 | 磐石

出品 | 磐创AI技术团队

【磐创AI导读】：本文是知识图谱的一篇综述类文章，带你对知识图谱有一个大体的了解。欢迎大家点击上方蓝字关注我们的公众号：磐创AI。

信息技术的发展不断推动着互联网技术的变革，Web技术作为互联网时的标志性技术，正处于这场技术变的核心。从网页的链接到数据的链接，Web技术正在逐步朝向Web之父Berners-Lee设想中的语义网络演变。语义网络是一张数据构成的网络，语义网络技术向用户提供的是一个查询环境，其核心要义是以图形的方式向用户返回经过加工和推理的知识。而知识图谱技术则是实现智能化语义检索的基础和桥梁。

一、知识图谱的定义、结构与知识库

知识图谱的概念是由谷歌公司在2012年5月17日提出的，谷歌公司将以此为基础构建下一代智能化搜索引擎，知识图谱技术创造出一种全新的信息检索模式，为解决信息检索问题提供了新的思路。本质上，知识图谱是一种揭示实体之间关系的语义网络，可以对现实世界的事物及其相互关系进行形式化地描述。现在的知识图谱已被用来泛指各种大规模的知识库。

知识图谱通常使用三元组的形式来表示，即 G=(E,R,S)，其中E={e1,e2,e3,…,en}是知识库中的实体集合，共包含|E|种不同的实体；R = {r1,r2 ,… ,rn}是知识库中的关系集合，共包含|R|种不同关系； S⊆E×R×E代表知识库中的三元组集合。三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等，实体是知识图谱中的最基本元素，不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类，例如人物、地理等；属性主要指对象可能具有的属性、特征、特性、特点以及参数，例如国籍、生日等；属性值主要指对象指定属性的值，例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识，每个属性-属性值对可用来刻画实体的内在特性，而关系可用来连接两个实体，刻画它们之间的关联。

知识图谱的架构主要包括自身的逻辑结构以及体系架构,目前，大多数知识图谱都采

用自底向上的方式进行构建，其中最典型就是Google的Knowledge Vaule，知识图谱体系架构如下图所示：

入门 | 知识图谱简介

图1 知识图谱体系架构

随着语义Web资源数量激增、大量的RDF数据被发布和共享、LOD等项目的全展开，学术界与工业界的研究人员花费了大量的精力构建各种结构化的知识库。这些知识库大致可以分为两类：开放链接知识库和行业知识库。开放链接知识库的典型代表有：Freebase、Wikidata、DBpedia、YAGO；垂直行业知识库的典型代表有：IMDB（电影数据）、MusicBrainz（音乐数据）、MusicBrainz（语义知识网络）。

二、 知识图谱的构建

知识图谱的构建包括三个步骤：（1）信息抽取：从各种类型的数据源中提取出实体（概念）、属性以及实体间的相互关系，在此基础上形成本体化的知识表达；(2)知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等；(3)知识加工：对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。新增数据之后，可以进行知识推理、拓展现有知识、得到新知识。

（1）信息抽取

信息抽取又名知识抽取，是知识图谱构建的第一步，是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术，具体分为：实体抽取、关系抽取和属性抽取。

实体抽取，也称为命名实体识别，是指从文本数据集中自动识别出命名实体．实体抽取的质量（准确率和召回率）对后续的知识获取效率和质量影响极大，因此是信息抽取中最为基础和关键的部分。实体抽取的方法大致可以分为三种：基于规则与词典的方法、基于统计机器学习的方法以及面向开放域的抽取方法。

关系抽取的目标是解决实体间语义链接的问题，早期的关系抽取主要是通过人工构造语义规则以及模板的方法识别实体关系。随后，实体间的关系模型逐渐替代了人工预定义的语法与规则。关系抽取技术的目的，是解决如何从文本语料中抽取实体间的关系。关系抽取大致可以分为基于开放式实体关系抽取和基于联合推理的实体关系抽取两类。

属性抽取的目标是从不同信息源中采集特定实体的属性信息。例如针对某个公众人物，可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。属性抽取技术能够从多种数据来源中汇集这些信息，实现对实体属性的完整勾画。由于可以将实体的属性视为实体与属性值之间的一种名词性关系，因此也可以将属性抽取问题视为关系抽取问题。

（2）知识融合

通过信息抽取，实现了从非结构化和半结构化数据中获取实体、关系以及实体属性信息的目标。然而，这些结果中可能包含大量的冗余和错误信息，数据之间的关系也是扁平化的，缺乏层次性和逻辑性，因此有必要对其进行清理和整合。知识融合包括两部分内容：实体链接和知识合并。通过知识融合，可以消除概念的歧义，剔除冗余和错误概念，从而确保知识的质量。

实体链接是指对于从文本中抽取得到的实体对象，将其链接到知识库中对应的正确实体对象的操作，实体链接的一般流程是：1.从文本中通过实体抽取得到实体指称项；2.进行实体消歧和共指消解，判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义；3.在确认知识库中对应的正确实体对象之后，将该实体指称项链接到知识库中对应实体。

在构建知识图谱时，可以从第三方知识库产品或已有结构化数据获取知识输入。例如，关联开放数据项目会定期发布其经过积累和整理的语义知识数据，其中既包括前文介绍过的通用知识库 DBpedia和 YAGO，也包括面向特定领域的知识库产品。知识合并又可分为合并外部知识库、合并关系数据库两个层面。

（3）知识加工

通过信息抽取，可以从原始语料中提取出实体、关系与属性等知识要素。再经过知识融合，可以消除实体指称项与实体对象之间的歧义，得到一系列基本的事实表达。然而，事实本身并不等于知识，要想最终获得结构化、网络化的知识体系，还需要经历知识加工的过程。知识加工主要包括三方面内容：本体构建、知识推理和质量评估。

本体是同一领域内不同主体之间进行交流、连通的语义基础，其主要呈现树状结构，相邻的层次节点或概念之间具有严格的“IsA”关系，有利于进行约束、推理等，却不利于表达概念的多样性。本体可通过人工编辑的方式手动构建，也可通过数据驱动自动构建，然后再经质量评估方法与人工审核相结合的方式加以修正与确认。

知识推理是指从知识库中已有的实体关系数据出发，经过计算机推理，建立实体间的新关联，从而拓展和丰富知识网络。知识推理是知识图谱构建的重要手段和关键环节，通过知识推理，能够从现有知识中发现新的知识。例如已知（乾隆，父亲，雍正）和（雍正，父亲，康熙），可以得到（乾隆，祖父，康熙）或（康熙，孙子，乾隆）。知识推理的对象并不局限于实体间的关系，也可以是实体的属性值、本体的概念层次关系等。例如已知某实体的生日属性，可以通过推理得到该实体的年龄属性。根据本体库中的概念继承关系，也可以进行概念推理，例如已知（老虎，科，猫科）和（猫科，目，食肉目），可以推出（老虎，目，食肉目）。

质量评估也是知识库构技术的重要组成部分受现有技术水平的限制，采用开放域信息抽取技术得到的知识元素有可能存在错误（如实体识别错误、关系抽取错误等），经过知识推理得到的知识的质量同样也是没有保障的，因此在将其加入知识库之前，需要有一个质量评估的过程；随着开放关联数据项目的推进，各子项目所产生的知识库产品间的质量差异也在增大，数据间的冲突日益增多，如何对其质量进行评估，对于全局知识图谱的构建起着重要的作用。引入质量评估的意义在于：可以对知识的可信度进行量化，通过舍弃置信度较低的知识，可以保障知识库的质量。

三、 知识图谱的应用

知识图谱为互联网上海量、异构、动态的大数据表达、组织、管理以及利用提供了一种更为有效的方式，使得网络的智能化水平更高，更加接近于人类的认知思维。目前，知识图谱已在智能搜索、深度问答、社交网络以及一些垂直行业中有所应用，成为支撑这些应用发展的动力源泉。

入门 | 知识图谱简介

基于知识图谱的智能搜索是一种基于长尾的搜索，搜索引擎以知识卡片的形式将搜索结果展现出来。用户的查询请求将经过查询式语义理解与知识检索两个方面。具体应用国外的搜索引擎以谷歌的Google Search、微软的Bing Search]最为典型；而国内国内的主流搜索引擎公司，如百度、搜狗等在近两年来相继将知识图谱的相关研究从概念转向产品应用。

问答系统是信息检索系统的一种高级形式，能够以准确简洁的自然语言为用户提供问题的解答。之所以说问答是一种高级形式的检索，是因为在问答系统中同样有查询式理解与知识检索这两个重要的过程，并且与智能搜索中相应过程中的相关细节是完全一致的。目前很多问答平台引入了知识图谱，国内百度公司研发的小度机器人，天津聚问网络技术服务中心开发的大型在线问答系统OASK，专门为门户、企业、媒体、教育等各类网站提供良好的交互式问答解决方案。

社交网站 Facebook于2013 年推出了Graph Search产品，其核心技术就是通过知识图谱将人、地点、事情等联系在一起，并以直观的方式支持精确的自然语言查询，例如输入查询式：“我朋友喜欢的餐厅”“住在纽约并且喜欢篮球和中国电影的朋友”等，知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。Graph Search提供的上述服务贴近个人的生活，满足了用户发现知识以及寻找最具相关性的人的需求。

垂直行业的应用以金融、医疗、电商领域为代表，塑造出了金融反欺诈、智能营销、商品推荐的应用场景。

结束语：

在未来的几年时间内，知识图谱毫无疑问将是人工智能的前沿研究问题。知识图谱的重要性不仅在于它是一个全局知识库，更是支撑智能搜索和深度问答等智能应用的基础，而且在于它是一把钥匙，能够打开人类的知识宝库，为许多相关学科领域开启新的发展机会。从这个意义上来看，知识图谱不仅是一项技术，更是一项战略资产。

【参考文献】：

【1】刘峤, 李杨, 段宏,等. 知识图谱构建技术综述[J]. 计算机研究与发展, 2016, 53(3):582-600.

【2】徐增林, 盛泳潘, 贺丽荣,等. 知识图谱技术综述[J]. 电子科技大学学报, 2016, 45(4):589-606.