超越数据集学习:用于自然语言处理的知识图增强神经网络


超越数据集学习:用于自然语言处理的知识图增强神经网络

会议:NAACL 2018
North American Chapter of the ACL,ACL北美分部
Annual Meeting of the Association for Computational Linguistics,计算机语言学协会年会

10页

0. 摘要

问题

机器学习一直是许多AI问题的典型解决方案,但是学习模型在很大程度上取决于特定的训练数据。
某些学习模型可以使用贝叶斯设置与先验知识结合在一起,但是这些学习模型无法按需访问任何有组织的世界知识。
在这项工作中,我们提出了通过知识图谱KG事实三元组中的世界知识来提高自然语言处理任务NLP的学习模型。

目标/工作

我们的==目标==是开发一种深度学习模型,该模型可以使用注意力机制根据任务从知识图中提取相关的先验支持事实
为了减少注意力空间,我们引入了基于卷积的模型学习知识图实体和关系簇的表示。

优点

我们表明,所提出的方法对于必须处理的先验信息量具有高度的可扩展性,并且可以应用于任何通用的NLP任务
使用此方法,我们展示了使用20Newsgroups(News20)和DBPedia数据集进行文本分类以及使用Stanford Natural Language Inference(SNLI)数据集进行自然语言推理的性能显着提高。

我们还证明,当深度学习模型可以以知识库的形式访问有组织的世界知识时,可以使用数量更少的带标签的训练数据来训练它。

1.简介

如今,机器学习围绕算法进行,这些算法可以在可用的特定于任务的标记和未标记训练样本上进行训练。

尽管像“转移学习”这样的学习范例(Pan和Yang,2010)试图将知识从一项任务整合到另一项任务中,但是这些技术在可扩展性方面受到限制,并且特定于手头的任务。

另一方面,人类具有内在的能力,可以按需从世界上吸取过去所需的知识,并将其注入新近学习的概念中以解决问题。

问题描述

我们在本文中要解决的问题是:是否可以开发一种可以通过以下方式进行训练的学习模型:除了基于训练数据的学习之外,还可以注入世界知识的整体进行预测?

图1基本思想

图1:基本思想:X是要素输入,Y是预测。在做出最终预测之前,将检索任务$X_w$的相关世界知识并通过特征输入进行扩充

世界知识/知识图谱

所谓世界知识,是指不需要特定领域的结构化通用知识

知识图谱(Nickel等,2016a)是这种结构化世界知识的流行来源。

知识图以事实三联体的形式表示信息,由主体实体,关系和对象实体组成(例如:<意大利,首都,罗马>)。实体表示图的节点,它们的关系充当边。事实三元组(对象实体,关系,对象关系)表示为==(h,r,t)==

实用知识库使用各种统计学习机制从二级数据库中收集信息或从非结构化文本中提取事实,此类系统的示例包括NELL(Mitchell等,2015)和DeepDive(Niu等,2012)。也有人类创建的知识库,例如Freebase(FB15k)(Bollacker等,2008)和WordNet(Miller等,1990)。这些知识库中的知识包括常识,部分涵盖常识知识和领域知识(Song和Roth,2017年)。

**知识图(Knowledge Graph)和知识库(Knowledge Base)**在概念上等效于我们的目的,在本文中我们将互换使用该名称。

例子:世界知识的重要性

我们通过一些例子来说明世界知识的重要性。以自然语言推理(NLI)问题为例(MacCartney,2009年),请考虑以下两个陈述:

  • A: The couple is walking on the sea shore
    A:夫妻在海边散步
  • B: The man and woman are wide awake.
    B:男人和女人清醒。

在这里,对于从A推断B的学习模型,它应该可以访问“The man and woman”“The couple” 意味着相同的常识,因为该信息可能并不特定于特定的推断。
此外,模型不可能仅从可用于任务的标记训练数据中学习所有此类相关性。

考虑对新闻片段进行分类的另一个例子:

  • Donald Trump offered his condolences towards the hurricane victims and their families in Texas.
    唐纳德·特朗普对德克萨斯州的飓风受害者及其家属表示慰问。

除非我们知道<Donald Trump,president, United States><Texas, state,United States>的事实,否则我们不能将其归类为政治新闻。

我们认为,机器学习模型除了可以用基础知识对数据进行训练外,还可以通过训练从结构化知识库中获取相关信息来增强其性能。(也就是文本+知识图谱?)

模型/任务

在这项工作中,我们提出了一种深度学习模型,该模型可以根据需要从知识库中提取相关的支持事实(Mitchell等人,2015),并将其与从训练数据中学到的特征一起纳入特征空间(如图1所示)。

图1基本思想

图1:基本思想:X是要素输入,Y是预测。在做出最终预测之前,将检索任务$X_w$的相关世界知识并通过特征输入进行扩充

这是一项具有挑战性的任务,因为知识库通常具有数百万个事实三元组。我们提出的模型涉及一种深度学习机制,以结合该查找方案以及模型的任务特定训练

查找机制和模型足够通用,因此可以扩展为任何任务特定的学习模型,以提高学习性能。

在本文中,我们在文本分类和自然语言推理方面建立了拟议的KG增强模型优于vanilla model香草模型的性能。

尽管在自然语言文本方面有大量关于知识图表示的工作(Nickel等人,2016a)(Mitchell等人,2015)(Niu等人,2012),但没有尝试用知识图信息来扩充学习模型已经完成了。就我们所知,这是首次尝试将来自知识库的世界知识纳入学习模型。

2.知识图谱表示

知识图实体/关系需要编码为数字表示形式以进行处理。在描述模型之前,我们将简要介绍图形编码技术。各种KG嵌入技术可以大致分为以下几类:基于结构的嵌入和语义丰富的嵌入。

  • 基于结构的嵌入
    • TransE(Bordes等,2013)是知识图表示的入门工作,它使用一维关系向量(h + r = t)将主体实体转换为主体实体。
    • TransE模型的变体(Bordes等,2013)使用实体向量在关系特定子空间上的转换。
    • TransH(Wang et al。,2014b)引入了特定于关系的超平面来翻译实体。
    • 仅使用图结构的类似工作包括
      • ManifoldE(Xiao等人,2015b)
      • TransG(Xiao等人,2015a)
      • TransD(Ji等人,2015)
      • TransM(Fan等人,2014)
      • HolE(Nickel et al。,2016b)
      • ProjE(Shi and Weninger,2017)
  • 语义丰富的嵌入,这些嵌入技术可学习表示KG的实体/关系及其语义信息。
    • 神经张量网络(NTN)(Socher et al。,2013)是该领域的开创性工作,它使用平均单词嵌入和随后的基于张量的操作来初始化实体向量。
    • 涉及这一想法的最新作品是“联合对齐”(Zhong等,2015)和SSP(Xiao等,2017)。
    • DKRL(Xie et al。,2016)是一种KG表示技术,该技术还考虑了文本的描述性,保持了TransE模型的简单结构。
    • 预训练的word2vec(Mikolov等人,2013)用于通过约束关系保持的卷积神经网络(CNN)(Kim,2014)来形成实体表示。

在我们的实验中,我们使用了==DKRL==(Xie等人,2016)编码方案,因为它着重于文本的语义描述。此外,DKRL从根本上使用TransE(Bordes等,2013)方法对结构信息进行编码。因此,我们可以使用t = h + r检索相关的实体和关系并获得完整的事实。这减少了事实检索的复杂性,因为实体/关系的数量比事实的数量少得多,从而使检索过程更快。

3.提出模型

给定训练数据x和标签y的情况下,具有参数Θ常规监督学习模型试图最大化以下函数:

常规模型最大化函数

其中优化参数$\Theta$如下给出:

theta公式

当我们有另一个函数y=f(x)时,若有结果x0= argmax(f(x)),则表示当函数f(x)取x=x0的时候,得到f(x)取值范围的最大值;若有多个点使得f(x)取得相同的最大值,那么argmax(f(x))的结果就是一个点集。

argmax(f(x))是使得 f(x)取得最大值所对应的变量点x(或x的集合)

在这项工作中,我们建议通过==纳入世界知识特征$x_w$来扩大监督学习过程==。使用单独的模型使用数据x​检索世界知识特征,其中$x_w = F(x,\Theta^{(2)})$。因此,我们修改后的目标函数可以表示为:

修改后的目标函数

其中$ Θ= {Θ^{(1)},Θ^{(2)}} $。可以使用以下公式获得优化的参数:

优化参数Theta

随后的部分集中于函数F的公式化,该函数负责使用数据样本x进行事实三重检索。

这里需要注意的重要一点是,我们没有假设基于F的P的任何结构形式。因此,该方法是通用的,适用于以任何形式的P来扩充任何监督学习设置,只有约束P应该使得误差可以针对F计算梯度

在实验中,我们使用softmax,并使用LSTM(Greff等人,2015)编码的输入作为==P的形式==。==至于F==,我们使用了soft attention软注意力(Luong等。 ,2015; Bahdanau等人,2014)使用输入的LSTM编码和事实的适当表示。

基于事实的表示,我们提出了两个模型(a)Vanilla Model范尼拉模型(b)Convolution-based entity/relation cluster representation基于卷积的实体/关系聚类表示,用于后续部分中的事实检索

3.1 Vanilla Model 香草模型

==KG的实体和关系使用DKRL编码==,如前所述。

  • 令$e_i∈R^m$代表实体 $i$ 的编码,
  • 而$r_j∈R^m$代表KG中的第 $j$ 个关系。
  • 串联词向量$ x =(x_1,x_2,…,x_T)$形式的输入文本首先使用LSTM(Greff等,2015)模块进行编码,如下所示:

ht=f(xt,ht-1)

以及:

o的公式

  • $h_t∈R^n$在t时刻的LSTM的隐藏状态,

  • f是非线性函数

  • T是序列长度。

然后从o形成上下文向量,如下所示:

image-20201226153203355

其中,$W∈R^{n×m}$表示权重参数。

用分别的LSTM复制相同的过程,以形成两个单独的上下文向量,==一个用于实体检索(CE),一个用于关系检索(CR)==。

由于在KG模型中KG中的事实三元组数量约为数百万个,因此我们使用分别通过实体和关系空间生成注意力的手段,然后使用检索到的实体和关系来形成事实。==对于实体的注意力,$e_i$通过以下方式给出实体上下文向量==:

image-20201226154946687

| E |是KG中的实体数。

类似地,对==关系向量$r_i$的注意力==计算为

image-20201226155110618

| R |是KG中的关系数。

==最终的实体和关系向量检索==是通过加权总和与各个检索到的实体/关系向量的关注值来计算的。

image-20201226155222219

图2:Vanilla实体/关系检索框图

图2显示了实体/关系检索的示意图。

在计算了最终的实体和关系向量之后,我们期待事实三元组的完成。

实验中使用的KG嵌入技术是DKRL,它固有地使用TransE模型假设(h + r≈t)。

因此,使用主题实体和关系我们将对象实体形成为t = e + r。

因此,检索到的==三元组事实为F = [e,r,e + r]==,其中$F∈R^{3m}$。

==使用LSTM模块将获取的事实信息与输入x的上下文向量(C)串联在一起==。

最终==分类标签y的计算==如下:

image-20201226172830593

3.2训练前/预训练的KG检索

香草模型涉及整个实体/关系空间,这不是一个好方法,因为我们观察到==每个注意力值的梯度很容易饱和==。

在一起训练分类和检索模块时,模型倾向于忽略KG部分,并且梯度仅通过分类模块传播。可以预见到这一点,因为手头任务的最相关信息来自训练样本,而背景帮助信息仅来自KG。经过几次训练后,KG检索到的事实始终收敛到固定向量。

为了克服这个问题,我们尝试了分别单独进行KG检索的预训练。

==预先训练的KG模型用于检索事实==,然后与分类模块连接,同时我们允许在联合训练时通过预先训练的模型传播错误。

我们推断,KG不返回噪音,并且具有完成任务所需的必要信息,因为单独的KG部分显示出显着的性能(News20为59%,SNLI为66%)。

图3:分别训练知识图检索和共同训练完整模型

图3描绘了整个培训方案。该程序==解决了在联合训练时KG检索部分中的梯度饱和问题==。

然而,==注意力机制的关键问题仍然必须涵盖大范围的实体/关系==。

3.3基于卷积的实体和关系簇表示

在本节中,我们提出一种机制来==减少必须在知识图中生成注意力的大量实体/关系==。

我们建议通过学习相似实体/关系向量的表示并关注它们来减少注意力空间。

为了聚类相似的实体/关系向量,我们使用了k-均值聚类(Bishop,2006),并在每个聚类中形成了具有相同数量的实体/关系向量的l个聚类。

然后使用卷积滤波器对每个聚类进行编码。

k均值聚类的输出是一系列实体/关系向量${e^T_1,e^T_2,···,e^T_q}$,其中$e_i∈R^m$。对于每个群集,将这些向量堆叠起来以形成$\epsilon$,作为CNN编码器的2D输入,其中$\epsilon∈R^{m×q}$。

在寻找合适的滤波器形状的实验过程中,观察到使用2D滤波器,模型根本无法收敛。

因此,我们推断向量ei中两个不同索引的潜在表示不应使用卷积进行篡改。

然后我们求助于使用一维卷积滤波器,该滤波器仅沿E的列滑动,如图4所示。

图4:卷积模型集群表示

沿y轴的步幅长度是窗口长度k。卷积层的输出表示为:

image-20201227174215986

其中$\epsilon’(i,j)$是输出矩阵$\epsilon’$的$(i,j)^{th}$元素,$W∈R^k$是卷积权重滤波器。

为了减少参数空间,在卷积层之后有一个池化层,类似于上面提到的卷积核,我们仅沿y轴使用了一维窗口。

我们使用步长为k的两层卷积网络,并调整了最大池窗口n以获得输出Ei∈Rm,其中i是聚类索引。

对于关系,也完成了相似的聚类过程,然后进行了聚类实体的编码。

因此,实体和关系空间都减少为包含更少的元素,每个集群一个。

在形成紧凑的实体空间E和关系空间R之后,我们遵循与先前相同的步骤来形成注意力,但是现在,由于梯度有效地传播并且不受较大空间的阻碍,因此训练更加有效。

由于卷积体系结构也同时受到训练,因此注意力机制不再像以前那样繁重,可以在实体和关系的广阔空间中进行学习。

这里需要提到的另一点是关于集群中项目的排序/排序,我们已经做过实验以验证排序不会影响最终结果。

我们已经通过随机改组每个集群中的实体/关系来验证了这一点,并且ac317 curacy输出保持在±0.5%的误差范围内。

在各种排列中,卷积运算符为聚类学习的表示形式有所不同,但不会影响整体结果。

关于对卷积算子学习什么的解释,沿着实体/关系向量的每个维度应用算子,以学习聚类的表示。

此表示包括来自集群中相关实体的信息,因为相关实体随任务而变化,因此使用卷积学习的表示也将进行相应调整。

这类似于从图像中学习相关特征,在我们的案例中,卷积层学习的特征集中在与任务有关的群集中的相关实体/关系上。

4.实验与评估

我们的实验旨在==分析深度学习模型是否可以从相关来源访问KG事实时是否得到改进==。

知识图的选择必须与手头的任务相关,因为当前没有单个知识库包含多种信息并且可以满足所有任务。我们用结果说明了深度学习模型在访问相关事实时的性能会提高。

我们还说明,随着该模型可以通过访问知识库来更快地学习,我们可以使用更少的训练数据来训练深度学习模型,而不会影响准确性。

在接下来的部分中,我们将简要描述使用的数据集和相关的知识库。

数据集和相关知识图

在我们的实验中,我们主要使用了流行的文本分类数据集==20Newsgroups==(Lichman,2013)和自然语言推断数据集,==斯坦福自然语言推断(SNLI)==语料库(Bowman等,2015)。

我们还对==[DBPedia本体分类数据集](http://wiki.dbpedia.org/ services-resources/dbpedia-data-set-2014)==进行了实验,并具有非常强的基准。

选择这些数据集是因为它们与两个最流行的知识库(==Freebase(FB15k)==(Bollacker等,2008)和==WordNet(WN18)==(Bordes等,2013))共享领域知识。

表1中提到了数据集的训练量和测试量。

数据集划分

==Freebase(FB15k)==(Bollacker et al。,2008)包含有关==人,地点和事物的事实==(包含14904个实体,1345个关系和490万个事实三元组),==可用于20Newsgroups的文本分类==(Lichman,2013年)数据集。

另一方面,==WordNet(WN18)==(Bordesetal,2013)(有40943个实体,18个关系和150万个事实三元组)包含==有关日常事物的事实==(例如:家具包括床),可以==帮助推断SNLI==之类的任务。

这两个知识库都是有向图,由于较少数量的关系WN18,因此实体更有可能使用相同类型的关系进行连接。

对于与这两个数据集20Newsgroups和SNLI相关的实验,我们使用==标准LSTM作为分类模块==。

如前所述,我们的基于KG的事实检索式独立于所使用的基本模型。我们通过KG事实检索使用建议的模型显示了性能的提高。我们使用测试集的==分类准确性作为评估指标==。

4.1 实验装置

所有实验都是在配备Quadro M5000 GPU和8 GB内存的Dell Precision Tower 7910服务器上进行的。

模型是使用Adam的Optimizer(Kingma和Ba,2014年)以==随机梯度下降==(Bottou,2012年)的方式进行训练的。这些模型是使用==TensorFlow==实现的(Abadi等,2015)。

表2列出了相关的超参数。

表2:用于News20和SNLI数据集的实验中使用的超参数

使用预训练的Glo Ve(Pennington et al。,2014)向量获得了实验的词嵌入。对于在预训练向量中缺失的单词,使用在相应数据集上训练的局部Glo Ve向量。

4.2 结果与讨论

表3显示了News20 和SNLI数据集上提出的各种方法的测试准确性的结果。

表3:使用WN18的FB15K和SNLI数据集测试News20中方法的准确性

我们观察到,使用基本的香草模型合并KG事实,由于检索模型没有得到有效的训练,因此可以稍微改善性能。

基于卷积的模型显示出比常规LSTM分类有显着改进。

在调整群集实体/关系的卷积参数时,观察到较小的步幅长度和较长的最大池窗口可改善性能。

对于News20数据集,我们显示了将近3%的改善,对于SNLI,我们显示了近5%的改善。

这项工作更多地是从以下方面出发的:整合世界知识是否会改善任何深度学习模型,而不是超越最新水平的表现。

如前所述,尽管使用LSTM编码模型的输入以及检索向量,但这两个模块不必相同。

为了对输入进行编码,可以使用任何复杂的最新模型。 LSTM也已用于生成检索向量。

对于DBPedia本体分类数据集,我们使用了98.6%的强基线,在使用基于卷积模型的KG(Freebase)增强基线之后,我们看到了约0.2%的改进。

随着基线的增强,改进的范围减小了。这是非常直观的,因为复杂的模型本身无法自学数据,因此可用于进一步改进的空间相对较小。

在实验中观察到的改进在较弱的学习模型中是显着的,但是从DBPedia数据集的结果来看,它也能够改进更强的基准。

4.3 训练深度学习模型时减少数据集尺寸的需求

我们==假设随着知识图将更多信息提供给模型,我们可以用更少的训练数据来获得更好的性能==。

为了验证这一点,我们对20Newsgroups数据集的不同数据集部分进行了实验,如图5所示。

图5:针对News20的基线和KG增强模型的数据集分数的精度图

从图中可以看出,KG增强的LSTM具有70%的数据优于具有完整数据集支持的基线模型,从而减少了对标记数据的依赖性30%。

我们还设计了一个实验,用于比较在完整训练数据上训练的基线模型的准确性,并将其与仅使用20Newsgroups和SNLI数据集的训练数据的70%训练的KG增强模型的准确性进行比较。

跨训练时期的准确性和训练损失图在图6中给出。

图6
图6:
(a)针对News20任务的LSTM(使用完整和70%数据集)和KG增强LSTM(使用70%数据集)的训练时期的精度图
(b)使用News20数据集的上述方法的相应训练损失图
(c )针对SNLI任务的LSTM(使用完整和70%数据集)和KG增强LSTM(使用70%数据集)训练时期的精度图
(d)使用SNLI数据集的上述方法的相应训练损失图

与仅基于完整数据训练的香草LSTM模型相比,即使只有70%的数据,KG增强模型也能够实现更好的准确性。

这清楚地表明,与任务相关的信息是从知识图中检索出来的,并且训练损失的减少并不是仅由于数据较少而导致的。

另请注意,当数据集大小减小时,与常规LSTM相比,KG LSTM的训练损失明显更少。

这个结果非常有希望,以减少难以实现的大型深度学习模型的大型标签训练数据需求。

5.相关先前工作

以前从未尝试过将通用的世界知识用于学习任务,特别是用于自然语言处理的基本思想。

对于多标签图像分类,近来(Marino et al。,2016)一直在使用KGs。

在这项工作中,他们首先获取输入数据的标签(使用不同的模型),使用这些标签从KG填充要素,然后将这些要素回用于最终分类。

对于NLP任务,所需的信息可能不一定取决于最终分类,我们直接使用输入中可用的所有信息来填充知识图中的相关信息。我们的尝试与转移学习Transfer Learning(Pan and Yang,2010)大不相同。

在“转移学习”中,重点是为一个任务训练模型并调整已训练的模型以将其用于另一任务。这在很大程度上取决于源任务和目标任务之间的对齐方式,并且传输的信息在模型中。

在我们的案例中,对于任何给定任务,一般的世界知识都被注入到学习模型中。按照同样的逻辑,我们的工作也不同于领域适应(Glorot等,2011)。

已经尝试使用世界知识(Song和Roth,2017年)来创建更多带标签的训练数据并提供远距离监督等。

基于领域的已知信息将归纳性偏见(Ridgeway,2016年)整合到学习模型的结构中,是一个活跃的研究领域。

但是,我们的动机和方法与这些作品根本不同。

6.结论与未来工作

在这项工作中,我们说明了将世界知识纳入训练任务特定模型的必要性。

我们提出了一种新颖的基于卷积的体系结构,以减少对实体和关系的关注空间,其表现优于其他模型。

通过对两个众所周知的数据集的原始基准进行重大改进,我们已经说明了我们提出的方法在增强深度学习模型性能方面的功效。

我们展示了所提出的方法可用于减少深度学习模型的标记训练数据需求。

尽管在这项工作中,我们仅专注于NLP任务,并使用LSTM作为基线模型,但该提议的方法也适用于其他领域任务,以更复杂的深度学习模型为基线。

据我们所知,这是首次将通用的世界知识注入到深度学习模型的任务特定训练中。
作为同类产品的第一项工作,还有很多改进的余地。
可以制定一个更复杂的模型,该模型能够从数百万个条目中更有效地检索事实。

当前,我们仅关注平面注意力结构,分层注意力机制会更合适。
该模型使用软注意力以通过简单的随机梯度下降进行训练。可以通过强化学习进一步关注事实。
这将进一步帮助选择不是相似类型但与任务相关的多重事实。

基于卷积的模型有助于减少必须引起注意的实体和关系的空间。然而,可以使用基于相似性的搜索(Wang等,2014a; Mu和Liu,2017)使用更复杂的技术。

初始实验的结果说明了我们提出的方法的有效性,主张朝这些方向进行进一步研究。


文章作者: SongX64
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 SongX64 !
  目录