科研

发布日期: 2021-03-19

文章字数: 14.5k

嵌入推荐系统的协作知识库

论文信息

2016年

会议：ACM SIGKDD（知识发现与数据挖掘会议）
第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集

补充知识

1. 异构图

同构图：在图里面，节点的类型和边的类型只有一种的图，举个例子，像社交网络中只存在一种节点类型，用户节点和一种边的类型，用户-用户之间的连边。

异构图：在图里面，节点的类型+边的类型>2的一种图，举个例子，论文引用网络中，存在着作者节点和paper节点，边的关系有作者-作者之间的共同创作关系连边，作者-论文之间的从属关系，论文-论文之间的引用关系。

2.TransR

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）：https://zhuanlan.zhihu.com/p/147542008

然而，每个实体可以有许多方面，不同的关系关注实体的不同方面。例如，(location, contains, location)的关系是’contains’，(person, born, date)的关系是’born’。这两种关系非常不同。

为了解决这个问题，我们让TransR在两个不同的空间，即实体空间和多个关系空间(关系特定的实体空间)中建模实体和关系，并在对应的关系空间中进行转换，因此命名为TrandR。

TransR的基本思想如图1所示。
对于每个三元组(h, r, t)，
将实体空间中的实体通过矩阵Mr投影到r关系空间中，分别为hr和tr，
然后有hr + r ≈ tr，损失函数和训练方法与TransE相同。h和t为实体嵌入，r为关系嵌入。

特定于关系的投影可以使实际持有这种关系的head/tail实体(表示为彩色圆圈)彼此靠近，同时那些不持有这个关系的实体相互远离(表示为彩色三角形)。

得分函数和目标函数与TransE相同。

TransE的损失函数是使用了负抽样的max-margin函数。

L(y, y’) = max(0, margin - y + y’)

y是正样本的得分，y'是负样本的得分。然后使损失函数值最小化，当这两个分数之间的差距大于margin的时候就可以了(我们会设置这个值，通常是1)。

由于我们使用距离来表示得分，所以我们在公式中加上一个减号，知识表示的损失函数为：

其中，d是：

这是L1或L2范数。至于如何得到负样本，则是将head实体或tail实体替换为三元组中的随机实体。

3.关于自编码器

漫谈autoencoder：降噪自编码器/稀疏自编码器/栈式自编码器：https://blog.csdn.net/wblgers1234/article/details/81545079
堆叠降噪自动编码器：https://blog.csdn.net/zbzcDZF/article/details/86570761

自编码器

自编码器分为两个部分，编码器encoder和解码器decoder。一个单隐层的AE的网络结构如下图所示

自编码器输出层的节点数与输入层相等。

值得注意的是，这种自编码器是一种不利用类标签的非线性特征提取方法，就方法本身而言，这种特征提取的目的在于保留和获得更好的信息表示，而不是执行分类任务，尽管有时这两个目标是相关的。

自动编码机由三层网络组成，其中输入层神经元数量与输出层神经元数量相等，中间层神经元数量少于输入层和输出层。

搭建一个自动编码器需要完成下面三样工作：搭建编码器，搭建解码器，设定一个损失函数，用以衡量由于压缩而损失掉的信息（自编码器是有损的）。

编码器和解码器一般都是参数化的方程，并关于损失函数可导，典型情况是使用神经网络。编码器和解码器的参数可以通过最小化损失函数而优化。

降噪自编码器

和自编码器不同的是，降噪自编码的训练过程中，输入的数据有一部分是“损坏”的，DAE(Denoising Autoencoder)的核心思想是，一个能够从中恢复出原始信号的神经网络表达未必是最好的，能够对“损坏”的原始数据编码、解码，然后还能恢复真正的原始数据，这样的特征才是好的。在论文“Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion”中，阐述了DAE的原理，如下图所示：

对于输入的数据x按照qD分布加入进行加噪“损坏”，

从图式可以看出，这个加噪过程是按照一定的概率（通常使用二项分布）将输入层的某些节点清0，然后将 $\hat x$ 作为自编码器的输入进行训练。

除了对输入层数据的处理不同，其余部分DAE与AE完全类似。

堆叠自编码器

顾名思义，栈式自编码器就是多个自编码器级联，以完成逐层特征提取的任务，最终得到的特征更有代表性，并且维度很小。
栈式自编码器的训练过程是，n个AE按顺序训练，第1个AE训练完成后，将其编码器的输出作为第2个AE的输入，以此类推。最后得到的特征作为分类器的输入，完成最终的分类训练。如下四幅图所示：

堆叠降噪自动编码器

堆叠降噪自动编码器（Stacked Denoising Auto Encoder，SDAE）

SDAE的思想就是将多个DAE堆叠在一起形成一个深度的架构。只有在训练的时候才会对输入进行腐蚀(加噪)，训练完成就不需要在进行腐蚀。结构如下图所示：

逐层贪婪训练：每层自编码层都单独进行非监督训练，以最小化输入（输入为前一层的隐层输出）与重构结果之间的误差为训练目标。
前K层训练好了，就可以训练K+1层，因为已经前向传播求出K层的输出，再用K层的输出当作K+1的输入训练K+1层。
一旦SDAE训练完成, 其高层的特征就可以用做传统的监督算法的输入。当然，也可以在最顶层添加一层logistic regression layer（softmax层），然后使用带label的数据来进一步对网络进行微调（fine-tuning），即用样本进行有监督训练。

4. 评测指标MAP@K和Recall@K

MAP（Mean Average Precision）本是在信息检索领域用以衡量搜索引擎的排序性能的评价指标，对于推荐系统，可以将推荐列表视为一个排序列表。例如对于【命中，命中，未命中，未命中，未命中】和【未命中，未命中，未命中，命中，命中】这两个top-5的推荐列表，显然他们的precision都是 $\frac{2}{5} $ ，但是显然第一个推荐列表的性能要高于第二个推荐列表，因为其在第1、2位就已命中。
MAP的公式如下：

$$MAP@K=\frac{1}{\vert{U}\vert}\sum_{u=1}^{\vert{U}\vert}\frac{1}{min(m,K)}\sum_{k=1}^{min(n,K)}P(k)\cdot rel(k)$$

也可以这么理解：

$$AP@K=\frac{1}{min(m,K)}\sum_{k=1}^{min(n,K)}P(k)\cdot rel(k)$$

$$ MAP@K=\frac{1}{\vert{U}\vert}\sum_{u=1}^{\vert{U}\vert}AP@K $$

K是推荐列表的长度，如刚刚top-5的推荐列表里K就是5，$\vert{U}\vert$是用户的数量，m是用户实际选择的项目数，n是给用户推荐的项目数，P(k)指的是从推荐列表中排名第1的项目到排名第k的项目的precision，rel(k)表示排名第kk的项目是否被用户实际选择。
所以对于推荐列表【命中，命中，未命中，未命中，未命中】，假设该用户在测试集中实际选择了3个项目，则

而对于推荐列表【未命中，未命中，未命中，命中，命中】

版权声明：本文为CSDN博主「百载文枢江左」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_42690752/article/details/102827308

摘要

在不同的推荐技术中，由于用户项交互的稀疏性，协同过滤通常遭受有限的性能。

要解决问题，通常使用辅助信息来提高性能。

由于网上信息的快速收集，知识库提供异构信息，包括具有不同语义的结构化和非结构化数据，可以由各种应用消耗。

在本文中，我们调查如何利用知识库中的异构信息来提高推荐系统的质量。

首先，通过利用知识库，我们设计三个组件以分别从结构内容，文本内容和视觉内容中提取项目的语义表示。

具体而言，我们采用异质网络嵌入(heterogeneous network embedding)方法称为TransR，通过考虑所述节点和关系的异质性来提取项目的结构表示。

我们应用堆叠的去噪自动编码器(stacked denoising auto-encoders)和堆叠的卷积自动编码器(stacked convolutional auto-encoders,)，它们是两种类型的基于深度学习的嵌入技术，以分别提取项目的文本表示和视觉表示。

最后，我们提出了我们的最终综合框架，被称为协作知识库嵌入（CKE），共同学习协同过滤的潜在表示以及知识库的项目语义表示。

为了评估每个嵌入组件以及整个系统的性能，我们通过不同场景的两个RealWorld数据集进行广泛的实验。结果表明，我们的方法优于若干广泛采用的最先进的推荐方法。

关键词

推荐系统
知识库嵌入
协同联合学习

1.简介

协同过滤

优点：

由于信息的爆炸性增长，推荐系统在在线服务中发挥着越来越重要的作用。在不同的推荐战略中，基于协同过滤（CF）使用历史互动或偏好的方法取得了重大成功[23]。

缺点：

然而，当用户项目交互非常稀疏时，CF方法通常会遭受有限的性能，这对于项目集非常大的在线购物等方案非常常见。
此外，CF方法不能推荐新项目，因为这些项目从未收到过去用户的任何反馈。

解决：

为了解决这些问题，混合推荐系统，结合协同过滤和辅助信息，如物品内容，通常可以实现更好的推荐结果，并且近年来越来越受欢迎[2]。

知识库

简介

在过去几年中，通过在统一的全球数据空间中的不同主题域中连接各种主题域名的各种信息，通过将各种信息与统一的全球数据空间中的不同主题域名连接各种信息，从而在链接数据原则上发布了越来越多的语义数据。这些异构数据互相链接，形成称为知识库的巨大信息资源库。已经建立了几个典型的知识库，包括Yago2，Nell3，DBPedia4和DeepDive5等学术项目，以及Microsoft的Satori6和Google知识图表7等商业项目。使用来自知识库的异构连接信息可以有助于开发关于难以从单个域的数据突出的问题的见解[6]。迄今为止，信息检索[9]，社区检测[25]，情绪分析[4] - 仅限名称 - 是成功利用知识库的值得注意的应用程序。

混合推荐

实际上，由于知识库提供了丰富的信息，包括具有不同语义的结构化和非结构化数据，因此在混合推荐系统的上下文中使用知识库的使用是吸引了越来越多的关注。

本文

提出方法：

为了解决上述问题，请在本文中提出了一种新的推荐框架，将协同过滤与知识库中项目的不同语义表示集成。

对于知识库，除了网络结构信息，我们还考虑项目的文本内容和视觉内容（例如，电影的海报）。

为避免繁重和繁琐的手动特征提取，我们设计三个嵌入组件，以分别从知识库的结构内容，文本内容和视觉内容中提取项目的语义表示。

具体而言：

我们首先通过考虑节点和关系的异质性来应用网络嵌入方法来提取项目的结构化表示。
接下来，我们采用堆叠的去噪自动编码器和堆叠的卷积自动编码器，这些自动编码器是两种类型的基于深度学习的嵌入技术，分别提取项目的文本表示和视觉表示。
最后，为了将协同过滤与知识库中的项目的语义表示顺利地融合，我们提出了我们的最终框架，该框架被称为嵌入（CKE）的协同知识库，以共同学习统一模型中的不同表示。

评估：

我们的实证研究包括多个部分。

首先，我们进行若干实验，以分别评估三个知识库嵌入组分的性能。

接下来，我们通过与若干竞争基线进行比较来评估我们的综合框架的有效性。

主要贡献：

本文的主要贡献总结如下：

据我们所知，这是第一次将知识库中的结构化内容，文本内容，视觉信息用于推荐系统
我们应用嵌入方法，包括异构网络嵌入和深度学习嵌入，以自动提取知识库中的语义表示。学习的表示也可以用于推荐以外的任务。
通过共同执行知识库嵌入和协同过滤，CKE可以同时从知识库中提取特征表示，并捕获用户和项目之间的隐式关系
根据两个实际数据集，我们对评估我们框架的有效性进行了广泛的实验。结果表明，我们的方法显着优于基线方法。

论文结构

本文的其余部分安排如下。

第2节介绍了初步概念，并提出了我们的推荐问题。

第3节概述了我们的框架。

第4节删除了嵌入组件以提取知识库的表示。

在第5节中，我们讨论如何将协同过滤与嵌入统一模型的知识库有效地集成。

在第6节中讨论了经验结果，
然后简要介绍第7节中的相关工作，
并在第8节中结束了本文。

2.初步概念

在本节中，我们将首先澄清本文中使用的一些术语，然后明确呈现出我们的问题。

2.1 用户隐反馈（User Implicit Feedback）

本文考虑的推荐任务是针对隐性反馈的。

隐反馈矩阵R

假设有m个用户和n个项目，我们定义了用户隐含的反馈矩阵 $R \in \mathbb{R}^{m\times n}$ 为：
$$
R = \begin{cases}
1, & 如果已观察到(用户i,项目j)交互; \
0, & 其余情况 \
\end{cases}
$$
其中矩阵R中的值1表示用户和项目之间的交互，例如，用户观看了电影或用户在搜索引擎中搜索了一本书。

请注意，隐式反馈数据中的值1并不意味着用户实际上喜欢这些项目。

实际上，用户搜索了一本书，因为他对这本书感兴趣，但在浏览互联网上的相关信息后，他可能可能不喜欢这本书。

同样，R中的值0并不意味着用户不喜欢这些项目，而是可以被视为负反馈的混合（用户对此类项目不感兴趣）和潜在的交互（用户不知道此类项目）。

只代表交互，不代表喜欢

2.2 知识库(Knowledge Base)

实际上，我们感兴趣的是利用知识库提高推荐系统的质量，因此推荐系统中的项目被映射到知识库中的实体（例如，电影项目通常可以映射到描述这部电影的实体），以及这些实体被称为本文中的项目实体。

三个部分

我们考虑存储在知识库中的信息可以分为三个部分：结构知识，文本知识和视觉知识。每个部分的详细定义如下：

定义1：结构知识

这些知识可以被视为具有多种类型的实体和多种类型的链路的异构网络，以表达知识库的结构。

对于电影推荐，
实体通常包括电影项目和相应属性（例如，类型“科学小说”和演员“Kevin Space”），
并且链接描述了这些实体（例如，“作用”行为和“评级”行为之间的关系）。

网络结构意味着项目实体之间的一些相似性，这对推荐最有用。

定义2：文本知识

对于知识库中的书籍或电影等项目实体，我们使用文本摘要来表示文本知识，通常为本书或这部电影提供了主要主题。

定义3：视觉知识

对于项目实体，除了先前的文本描述外，知识库中通常存在一些图像，我们使用书的前封面图像或电影的海报图像来表示其视觉知识。

用户隐式反馈交互和结构知识用作物品的结构特征，而文本知识和视觉知识则作为内容特征。

物品的结构特征
- 用户隐反馈交互
- 结构知识
内容特征
- 文本知识
- 视觉知识

图1中介绍了具有三种知识以及用户隐式反馈的知识库的片段。

图1：用户隐含反馈数据和知识库数据片段的例证

2.3 问题描述

我们在本文中定义了我们的推荐问题，如下所示：

给出具有结构知识的知识库，文本知识和视觉知识，以及用户隐含的反馈；

我们的目标是推荐给每个用户他会感兴趣的一个项目排行列表。

3. 综述

在本文中，通过充分利用知识库中的结构知识，文本知识和视觉知识，我们提出了一个协作知识库嵌入模型（CKE），以支持我们的推荐任务。

我们的模型主要由两个步骤组成：1）知识库嵌入2）协同联合学习。

1)知识库嵌入

在知识库嵌入步骤中，我们分别从结构知识，文本知识和视觉知识中提取项目实体的三个嵌入向量。这些嵌入向量表示每个域中的项目实体的潜在表示。

对于结构嵌入组成部分，我们应用网络嵌入程序（贝叶斯TransR）从结构化的知识的异构网络中找到潜在的表现。

对于文本嵌入组件，我们应用一个叫做贝叶斯堆积的去噪自动编码器（Bayesian SDAE）的无监督的深度学习模型[29]以找到文本知识的潜在表示。

同样，我们应用另一个叫做贝叶斯堆积的卷积自动编码器（贝叶斯SCAE）的无监督的深度学习模型，以找到视觉知识的潜在表示。

2)协同联合学习

在协作联合学习步骤中，最终将项目的潜在矢量表示为从知识库和潜在偏移量载体的三个嵌入向量的集成。

最终项目潜伏载体代表了来自结构内容，文本内容，视觉内容以及历史(用户-项目)交互的项目的知识。

然后，我们通过优化项目之间的成对排名来使用协同过滤来学习用户潜在向量和项目潜在的向量。

最终推荐由这些用户潜在的向量和项目潜在的向量生成。

我们框架的流程图如图2所示。知识库嵌入和协作联合学习将分别在第4节和第5节中详细说明。

图2：协同知识库嵌入（CKE）框架的推荐系统流程图

4.知识库嵌入

在本节中，通过利用网络嵌入和深度学习嵌入，我们介绍了我们如何分别从结构知识，文本知识和视觉知识中提取项目实体的表现。

4.1 结构化嵌入

异构网络编码实体的结构化信息及其丰富关系。

为了捕获这种结构化知识，希望将该异构网络嵌入到连续的矢量空间中，同时保留网络的某些信息。

在本小节中，我们首先简要介绍一个名为TransR [15]的最新的网络嵌入方法，然后为我们的任务给出TransR的贝叶斯表达。

首先，要代表结构知识，我们使用一个无向图$G =（V，E）$，
其中$V = { v_1,……v_{|V|} }$是一组顶点，指的是不同实体，
E是一组边，参考这些实体之间的不同类型的关系。

Transr [15]是用于异构网络的最先进的嵌入方法。

与承担相同空间RK内的实体和关系的其他方法不同，Transr表示由关系特定矩阵桥接的不同语义空间中的实体和关系。

在Transr中，对于网络中的每个三元组$（v_h，r，v_t）$，（$v_h$和$v_t$是两个链接实体，r是它们之间的边类型），实体嵌入到向量$v_h,v_t \in \mathbb R^k$中，而关系嵌入到$r \in \mathbb R^d$中。

三元组：$（v_h，r，v_t）$
实体嵌入：$v_h,v_t \in \mathbb R^k$
关系嵌入：$r \in \mathbb R^d$

对于每个关系r，我们设置了一个投影矩阵$M_r \in \mathbb R ^{k \times d}$，其将来自实体空间的实体项目投影到关系空间。

图3：结构化嵌入TransR的例子

如图3所示，项目的实体向量被定义为

这个三元组的的评分函数相应定义为:

生成过程，TransR的贝叶斯版本

类似于[22]，我们使用sigmod函数来计算成对三元组排名概率，而不是原始Transr中采用的（margin-based objective function）基于边缘的目标函数。然后我们将TransR延伸到贝叶斯版本，并提出了如下的生成过程：

对于每个实体v，使得$v \sim N(0, \lambda_v^{-1}I)$
对于每个关系r，分别使得$r \sim N(0, \lambda_r^{-1}I)$ 和$M_r \sim N(0, \lambda_M^{-1}I)$
对于每个四元组$(v_h,r,v_t,v_t’) \in S$ ，从概率$\sigma (f_r(v_h,v_t) - f_r(v_h,v_t’))$使得，其中S是满足的一下条件的四元组集合：$（v_h,r,v_t）$ 是一个正确的三元组，$(v_h,r,v_t’)$是一个不正确的三元组。$\sigma :(x) = {1 \over 1+e^{-x}} $ 是逻辑sigmoid函数

对于正确的三元组$（v_h，r，v_t）$来说，通过将一个实体用相同类型的另一个实体来替换是很常见的，并且构造不正确的三倍$（v_h，r，v_{t’}）$。

注意，步骤3意味着当正确三元组的得分函数大于不正确的三元组的分数函数时，可以更容易采样四元组。

对于每个项目实体$j$，我们使用贝叶斯TransR嵌入向量$v_j$来代表其结构化表示。

TransR需要深♂入了解一下

知识图谱嵌入的Translate模型汇总（TransE，TransH，TransR，TransD）：https://zhuanlan.zhihu.com/p/147542008

关于TransR

特定于关系的投影可以使实际持有这种关系的head/tail实体(表示为彩色圆圈)彼此靠近，同时那些不持有这个关系的实体相互远离(表示为彩色三角形)。

得分函数和目标函数与TransE相同。

TransE的损失函数是使用了负抽样的max-margin函数。

L(y, y’) = max(0, margin - y + y’)

y是正样本的得分，y'是负样本的得分。然后使损失函数值最小化，当这两个分数之间的差距大于margin的时候就可以了(我们会设置这个值，通常是1)。

由于我们使用距离来表示得分，所以我们在公式中加上一个减号，知识表示的损失函数为：

其中，d是：

这是L1或L2范数。至于如何得到负样本，则是将head实体或tail实体替换为三元组中的随机实体。

4.2 文本嵌入

在本小节中，我们调查如何应用一个名为堆叠去噪自动编码器（SDAE）的无监督深度学习模型，以获取文本知识的项目实体的文本表示。

4.2.1符号表示

SDAE [27]是用于学习损坏的输入数据表示的反馈神经网络，通过学习预测输出中的清洁本身。

在提出模型细节之前，我们提供SDAE中使用的符号。

假设网络层的数量是$L_t$，我们使用矩阵$X_l$代表SDAE中的第L层的输出。

请注意，我们使用最后一层输出 $X_{L_t}$ 来表示所有项目实体的原始清洁文本知识，其中第j行是实体j的词袋矢量$X_{L_{t,j*}}$，j * 。

同样，我们使用矩阵$X_0$来表示噪声损坏的矩阵（随机掩蔽了$X_{L_t}$的某些实体，通过使其为0的方式）。

$W_l$ 和 $b_l$ 分别是用于l层的权重参数和偏置参数。

4.2.2图示

图4：用于文本嵌入的6层SDAE的图示

图4给出了一个6层SDAE的例证，用于我们的文本嵌入组件。

如该图所示，网络的第一个$L_t \over 2$ 层（从$X_0$ 到 $X_3$）通常用作编码器部分，该部分将损坏的输入$X_0$映射到潜在的紧凑型表示$X_3$，并且最后一个$L_t \over 2$ 层（从$X_3$ 到 $X_6$）通常用作解码器部分，其恢复清洁输入X6的潜在表示X3。

4.2.3 贝叶斯SDAE中每层L的生成过程

与[29]类似，同时给出观测到的清洁输入$X_{L_t}$和损坏的输入$X_0$，我们介绍了贝叶斯SDAE中每层L的生成过程，如下所示：

对于给定的权重参数$W_l$，使得$W_l \sim N(0, \lambda_W^{-1}I)$
对于偏重参数，使得$b_l \sim N(0, \lambda_b^{-1}I)$
对于此层的输出，使得$X_l \sim N(\sigma (X_{l-1} W_l + b_l), \lambda_X^{-1}I)$

中间层中的嵌入矢量，比如图4中的$X_{3,j*}$ ，被用作项目实体j的文本表示。

4.2.4 关于自编码器

漫谈autoencoder：降噪自编码器/稀疏自编码器/栈式自编码器：https://blog.csdn.net/wblgers1234/article/details/81545079
堆叠降噪自动编码器：https://blog.csdn.net/zbzcDZF/article/details/86570761

自编码器

自编码器分为两个部分，编码器encoder和解码器decoder。一个单隐层的AE的网络结构如下图所示

自编码器输出层的节点数与输入层相等。

自动编码机由三层网络组成，其中输入层神经元数量与输出层神经元数量相等，中间层神经元数量少于输入层和输出层。