知识图谱简单了解


知识图谱

1. 定义

概念:

知识图谱技术是人工智能技术的重要组成部分,是一种揭示实体之间关系语义网络,可以对现实世界的事物及其相互关系进行形式化地描述。语义网中的节点表示实体或概念,边则由属性或关系构成。

应用:

建立一个具有语义处理能力与开放互联能力的知识库,可以在智能搜索、智能问答、个性化推荐等智能信息服务重产生应用价值。

image-20201017105719896

知识图谱已被用来泛指各种大规模的知识库

背景:

  1. 互联网信息量暴增 2. 智能化知识表示,知识图谱最初就是应用于信息检索方面。
1
2
3
4
5
graph TB
1[web1.0时代文档互联]-->2[web2.0时代数据互联]
2--正在迈向-->3[web3.0时代知识互联]


image-20201017112549311

2012 年 5 月 17 日,Google 正式提出了知识图谱(Knowledge Graph)的概念,其初衷是为了优化搜索引擎返回的结果,增强用户搜索质量及体验。

实际上,知识图谱并不是一个全新的概念,早在 2006 年就有文献提出了语义网(Semantic Network)的概念,呼吁推广、完善使用本体模型来形式化表达数据中的隐含语义,RDF(resource description framework,资源描述框架)模式和 OWL(Web ontology language,万维网本体语言)就是基于上述目的产生的。用电子科技大学徐增林教授的论文原文来说:

知识图谱技术的出现正是基于以上相关研究,是对语义网标准与技术的一次扬弃与升华。

img

表示形式

基于三元组是知识图谱的一种通用表示方式,
即$$ G=(E,R,S)$$:

  • $E={ e_1,e_2,……,e_{|E|} }$,其中 E是知识库中的实体集合,共有|E|种不同实体
  • $R={r_1,r_2,……,r_{|R|}}$R是知识库中的关系集合,共包含***|R|***种不同关系;
  • $S \subseteq E \times R \times E $,S代表知识库中的三元组集合。

三元组的基本形式主要包括(实体1-关系-实体2)和(实体-属性-属性值)等。

  • 每个实体(概念的外延)可用一个全局唯一确定的ID来标识,
  • 每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,
  • 而关系可用来连接两个实体,刻画它们之间的关联。

如下图1的知识图谱例子所示:

  • 中国是一个实体,北京是一个实体,
    • 中国-首都-北京 是一个(实体-关系-实体)的三元组样例
  • 北京是一个实体 ,人口是一种属性2069.3万是属性值。
    • 北京-人口-2069.3万构成一个(实体-属性-属性值)的三元组样例。

image-20201017110948417

知识图谱构建

  • 自顶向下(top-down)
    自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式需要利用一些现有的结构化知识库作为其基础知识库,例如 Freebase 项目就是采用这种方式,它的绝大部分数据是从维基百科中得到的。
  • 自底向上(bottom-up)
    目前大多数知识图谱都采用
    自底向上指的是从一些开放链接数据(也就是 “信息”)中提取出实体,选择其中置信度较高的加入到知识库,再构建实体与实体之间的联系

image-20201017113016407


文章作者: SongX64
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 SongX64 !
  目录