知识图谱
1. 定义
概念:
知识图谱技术是人工智能技术的重要组成部分,是一种揭示实体之间关系的语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。语义网中的节点表示实体或概念,边则由属性或关系构成。
应用:
建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务重产生应用价值。
知识图谱已被用来泛指各种大规模的知识库。
背景:
- 互联网信息量暴增 2. 智能化知识表示,知识图谱最初就是应用于信息检索方面。
1 | graph TB |
2012 年 5 月 17 日,Google 正式提出了知识图谱(Knowledge Graph)的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。
实际上,知识图谱并不是一个全新的概念,早在 2006 年就有文献提出了语义网(Semantic Network)的概念,呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义,RDF(resource description framework,资源描述框架)模式和 OWL(Web ontology language,万维网本体语言)就是基于上述目的产生的。用电子科技大学徐增林教授的论文原文来说:
知识图谱技术的出现正是基于以上相关研究,是对语义网标准与技术的一次扬弃与升华。
表示形式
基于三元组是知识图谱的一种通用表示方式,
即$$ G=(E,R,S)$$:
- $E={ e_1,e_2,……,e_{|E|} }$,其中 E是知识库中的实体集合,共有|E|种不同实体
- $R={r_1,r_2,……,r_{|R|}}$R是知识库中的关系集合,共包含***|R|***种不同关系;
- $S \subseteq E \times R \times E $,S代表知识库中的三元组集合。
三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。
- 每个实体(概念的外延)可用一个全局唯一确定的ID来标识,
- 每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,
- 而关系可用来连接两个实体,刻画它们之间的关联。
如下图1的知识图谱例子所示:
- 中国是一个实体,北京是一个实体,
- 中国-首都-北京 是一个(实体-关系-实体)的三元组样例
- 北京是一个实体 ,人口是一种属性2069.3万是属性值。
- 北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例。
知识图谱构建
- 自顶向下(top-down)
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。 - 自底向上(bottom-up)
目前大多数知识图谱都采用
自底向上指的是从一些开放链接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系。