使用文本聚类自动构建多方面的用户画像并将其应用于专家发现和过滤问题
2019年文章
关键字:
- 聚类
- 基于内容的推荐
- 专家发现
- 过滤
- 用户分析
摘要
在当今的信息时代,我们不仅对访问多媒体对象(如文档,视频等)感兴趣,而且还对寻找专业专家,人物或名人(可能出于专业需求或娱乐目的)感兴趣。
信息访问系统需要能够提取和利用有关此类个体的各种信息源(通常为文本格式),并通常以用户画像/用户数据/配置文件的形式以合适的方式表示它们。
在本文中,我们通过聚类专家文本源以构建画像并捕获专家感兴趣的不同隐藏主题,从机器学习的角度解决了基于画像的专家推荐和文档过滤的问题。然后,专家将通过多方面画像来表示。
我们的实验表明,这是提高专家发现和文档过滤性能的有效技术。
1. 简介
背景问题:
万维网的内容极其广泛多样,因此一个常见的搜索任务是寻找能够帮助我们解决特定问题的人。
例如,我们可以寻找医生来治疗特定的疾病,寻找建筑工人来修理漏水的屋顶,或者寻找政治家来讨论当地的问题,以便找到解决方案。
这种类型的信息搜索是建立在更广泛的专家发现领域[1]的基础上的,用户可以在给定的领域找到专家。
存储表示:文档
为了使这项任务成功,专家有必要以某种方式在检索系统中来进行表示。最专业和准确的方法是考虑专家的个人资料,因为这些资料存储了最具代表性的关键词来定义他们的专业领域。
这些简介将通过考虑最能代表专家的文件来建立:
例如,对于科学家来说,这将是他们的期刊或会议出版物;对于作家来说,他们出版的书;对于程序员来说,他们写的源代码;对于律师来说,他们审理的法庭案件;对于政治家来说,他们在议会会议上的干预。
有了所有这些文档,系统可以通过为专家的专业领域选择最佳关键词来自动建立专家档案。然后,专家查找系统将使用该信息源来匹配以查询形式表示的用户信息需求。
查找问题:两种
基本上有两个主要问题与查找使用画像的相关人员有关:
- 给定一组专家或专业人员,问题在于返回最适合用户所表达需求的人员(通常以短查询的形式)。
在这种情况下,只会推荐排名最高的。这被认为是专家发现的问题,或更广泛地说是==基于内容的推荐==[2]。
在这种情况下,我们只需要排名最高的专家,因为这些专家与查询最相关。 - 当==新文档==第一次到达系统时(以长查询为模型的情况),目的是确定应由哪些专家接收该文档。
这是一个==过滤问题==[3],此处的目的是找到每个相关人员,而不考虑其排名。
尽管这两个问题都可以看作是同一枚硬币的“两面” [4],并且可以用相似的方法解决,但在本文中,我们将证明在它们的配方和解决方案方面确实存在差异。
问题:为什么要多面画像
在本文中,我们将认为专家的专业领域通常不限于单个主题:
例如,科学家虽然专攻信息检索,但也可能会沿着不同的研究方向发表论文(例如检索模型,个性化,推荐系统等)或政客可以坐在三个不同的议会委员会(例如,农业,环境和经济)中,并与这些领域有联系。
如果从所有专家的文档中建立一个个人资料,则他们所有感兴趣的主题都将混在其中。这可能导致较一般的主题优先于较特殊的主题,因此,个人资料无法正确反映专家的兴趣,并且可能意味着在搜索特定主题时找不到这些兴趣。
因此,一种解决方案可能是认为==用户画像不是整体的==,而是包含其他用户画像或子用户画像的多面结构,每个用户画像或子用户画像都与不同的主题相关。这样,上面的政治家将由三个子用户画像代表。
举例:议会会员
沿着这些思路,本文的作者进行了研究,以在议会中寻找相关人员。
在最初的方法中,从国会议员的演说中为国会议员建立了简介,然后可用于查找相关国会议员[5]。
这些画像是通过考虑他们所有的处置措施(intervention?)来创建的,为每一个议员建立一个整体的用户画像。
由于国会议员的许多演讲来自专门的议会委员会,因此在复合画像中被认为是,根据国会议员对她/他所属委员会的干预,每个国会议员可以拥有各种子画像。
本文证明,从个人档案性能和可解释性两方面来看,这种组织用户画像的方法对于推荐问题而言更为有趣。
在本文中,我们走得更远,因为我们的目标是==确定使用机器学习技术(更具体地说是集群)是否可以自动发现用户感兴趣的不同主题并在此基础上构建子画像==。
如果没有明确的文档关联,或者如果没有文档的关联,自动发现主题(组)将特别有用,因为它不是推荐或筛选任务中最佳性能的最佳选择(主题应该呗划分和一起分组在相同的子画像中),这在议会上下文中非常普遍。
例如,如果我们考虑一个出于政治原因而成立的议会委员会,以同时涵盖农业,畜牧业和渔业的三个领域,那么对该议员的所有议员干预都将包含在同一子用户画像中,尽管它们可能代表不同的主题。
此外,委员会的结构通常随任期而变化,因此,根据这些委员会将国会议员的干预归类,可以在任何给定时间提供取决于组织政治决策的主题分布。
最后,通过考虑从上一学期学到的集群主题,可以减少任期开始时的冷启动问题,即尚无委员会存在。
在本文中,我们将展示==聚类==是一种合适的技术,该技术可用于从文档中发现隐藏的主题并创建表示用户兴趣的复合用户画像。
我们的实验结果还表明,聚类技术如何成功地应用于专家推荐和过滤问题,以构建多方面的用户画像,其中每个子用户画像均从与用户相关的文档中获取并分组在一起。可以从统一的角度解决这两个问题,因为从概念上讲,在两种情况下,给定查询,结果都是要推荐或推荐的专家用户的排名。
我们还研究了将聚类应用于文档集的两种方法:
- 一种全局方法,其中通过考虑所有专家的文档进行聚类;
- 局部方法,只对每个专家的文档进行聚类。
文章结构
为了描述如何将聚类应用于这些问题及其性能,本文的组织方式如下:
- 第2节介绍了有关用户用户画像和聚类的介绍性信息,以便对本文的其余部分进行背景介绍。
- 第3节包含本文的核心,并描述了用于构建子用户画像的聚类建议。
- 第4节介绍了实验设计和相应的结果,并讨论了主要发现;
- 第5节回顾了现有技术,提出了类似的方法,并通过强调我们的贡献来研究这些方法与我们的建议之间的区别;
- 最后,最后一部分概述了我们的主要结论和未来的研究方向。
2. 背景知识
鉴于本文的背景是将用户画像的构造和使用,信息访问以及聚类方法的应用结合起来以更准确地组织此类用户画像,
在本节中,我们将介绍与这两个主题及其组合有关的一些概念和技术。
第5节将详细介绍现有技术。
2.1 用户画像
用户画像概念
用户画像可以==定义==为用户模型的表示,存储用户的基本信息(例如年龄,性别或位置),知识,背景和技能,行为和互动,上下文信息,兴趣或偏好和意图[7,8] 。
学习用户画像的过程称为用户画像构建:
- 它基于==显式==收集信息(用户明确表达其兴趣或偏好[9])
- ==隐式==收集信息(系统负责通过基本分析浏览数据来自动检测用户感兴趣的信息项)。
本文关注的是==主要表达兴趣的个人资料==,因此需要一种有效的方法来有效地表示他们的兴趣。
用户画像的表示
机器学习,关键词方法
Gauch等人在[9]中认为概况通常可以==用关键词,语义网络或概念来表示用户画像==。
同时,基于机器学习和数据挖掘的智能技术也被用来代表用户模型[7]。他们专注于基于关键字的用户画像,存储从用于构建它们的来源(文档,网页,任何类型的项目的文字描述等)中提取的相关单词的列表。对这些关键词或术语进行加权以反映其对用户的重要性,并且通常建模为加权向量(例如,通过使用TF–IDF加权方案[2])。
抽象概念
兴趣也可以表达为抽象概念而不是关键字。在第5节中将讨论通过组合不同元素(例如,主题和关键字)构建的更详细的用户画像表示形式。
尽管可以获得基于知识的用户画像(可能是用户兴趣的人类可读表示形式),但它们无法成功推荐或过滤问题,尤其是涉及代表演讲和口头讨论的文档时。
在计算机科学的广泛领域中,用户画像被认为是用户精准营销的基本工具[8],更具体地说,[7]指出了与信息访问相关的各个领域。考虑到本文的背景,这些包括个性化信息检索[10],推荐系统[11]和专家发现[12]。
2.2 聚类
从一般的角度来看,聚类分析的主要目的是试图==在未标记数据集的实例上找到一个通用结构,以便将它们分成具有相似特征的组(集群)==[13]。
聚类方法
在所有现有的各种聚类技术中[14-16],我们应该强调两个主要的族。
其中第一个是基于连接的聚类或基于层次聚类[13,17-19]。
这将构建一个距离树(或树状图),以表示以下事实:同一分支中的项目比其他分支中的项目根据其接近程度更相似。
根据树状图的构建方式,第一个家族分为两个不同的类别:
凝聚方法[20],其中每个实例在开始时都属于一个独立的集群,而成对的相似集群以与凝聚相同的方式递归组合嵌套算法(AGNES,[13])
凝聚层次聚类:AGNES算法(自底向上)
首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的簇,直到某个终结条件被满足分裂方法[21],其中所有实例均始于一个独特的簇,该簇按照与分裂分析聚类类似的相似性,根据相似性递归分为两个不同的组(例如DIANA [13]) 。
分裂层次聚类:DIANA算法(自顶向下)
首先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到达到了某个终结条件。
第二类是基于质心的聚类。
其中,不同的聚类围绕一个中间点成形,该中间点不一定是数据集的实例,并且每个项目被分配给中间点在附近的聚类[22,23]。
我们将着重于两种不同的方法来比较不同方法中的数据行为。
K-Means (分散性聚类) [24,25]算法通过将n个实例分成K个不同的组,并将每个实例迭代地分配给具有最近平均值的组,并在每次迭代后重新计算组平均值点来工作。
PAM [13,26]算法函数也与前一个相似,尽管PAM中聚类的中点是代表聚类中值的一个实例。
K-means(K均值划分)聚类
PAM(Partition Around Medoids)是K-medoid(K中心点划分)的基础算法
K近邻与K-means算法区别
K近邻是一种分类算法,属于有监督范围,需要样本标签;
而K-means是无监督学习算法,属于聚类
K近邻的算法流程:
① 确定计算点与各分类点的距离;
②选取K个机理最近的点
③选取K个点中,属于某一类点数最多的类作为归类点K-means算法的流程:
①确定K个聚类中心
②针对某一个计算点,计算其与每个聚类中心的距离,选取距离最小聚类类别,将该点判为该聚类。
③利用均值重新计算该聚类的中心。返回新的聚类
其他方法
除了这组经典的聚类方法之外,我们可以在文献中找到其他技术,这些技术并不完全是聚类算法,而是试图捕捉数据的潜在语义,并且可以适应或应用于这个问题。
在文本文档集合的上下文中,第一个例子是潜在狄利克雷分配(LDA) [27,28],这是一种主要用于自然语言处理的算法。LDA是一个三层层次的贝叶斯模型。它从文档集合中找到潜在的主题,并为每个文档分配主题的概率分布以及每个主题的术语的概率分布。
另一个例子是自组织特征映射(SOM),这是一个有效的工具,通过将数据的维度减少到低维度(通常是二维)映射来提供高维空间的数据可视化。SOM实现了一个人工神经网络,该网络使用无监督数据集进行训练,目标是浓缩训练集的所有信息,同时保留数据之间最重要的拓扑和度量关系,创建输入空间的某种抽象[29]。
SOM算法简介
SOM是一类“无监督学习”模型,一般的用法是将高维的input数据在低维的空间表示[1],因此SOM天然是一种降维方法。除了降维,SOM还可以用于数据可视化,以及聚类等应用中。
总结表
表1总结了所考虑的六种算法的主要特征。关于许多聚类算法的更详细的研究,包括它们的优点和缺点,见[30]。
表1 所考虑算法的主要特征。
| 算法 | 系列 | 类型 |
| ——- | ——– | ———- |
| AGNES | 层次 | 聚集 |
| DIANA | 层次 | 划分 |
| K-MEANS | 基于质心 | 基于均值 |
| PAM | 基于质心 | 基于中值 |
| LDA | 主题模型 | 贝叶斯网络 |
| SOM | 神经网络 | 竞争学习 |
聚类的类别个数
在数据聚类分析中,一个重要的问题是建立聚类的个数以及如何计算。
有许多方法可以估计最适合数据集的聚类数。
在众所周知的问题中,很常见的是自然地确定聚类的数量,以便获得定义明确的组的数量,但是在其他情况下,这是非常困难的,因为没有关于这个数量的线索。
更具体地说,在文本数据库中,确定聚类数的另一种方法是考虑n(文档总数)、m(术语总数)和t(相应文档术语矩阵中非零条目的数量)的值。然后将簇数k定义为k = mn/t [31]。确定该参数值的另一个突出方法是用一般有效的方法√n/2 [13]计算。
聚类的评估
关于聚类过程质量的评估,典型的评估措施试图最大化聚类内的相似性,即放置在同一聚类中的文档必须非常相似,并且最小化每个聚类间的相似性,即放置在不同聚类中的文档必须非常不相似。
同类紧密程度:同类内之间,其中每个文档之间相似性最大
类间分散程度:类与类之间,每个类之间的相似性最小
这就是众所周知的轮廓系数[32]的情况,它计算给定对象与最近簇的对象的平均距离,并从其自身簇中减去对象相对于元素的平均距离(所有对象的平均距离)。
聚类评估算法-轮廓系数(Silhouette Coefficient )
o与o所属的簇内其他对象之间的平均距离a(o):b(o)是o到不包含o的所有簇的最小平均距离:
轮廓系数的值在-1和1之间。(1好,-1不好)
当o的轮廓系数值接近1时,包含o的簇是紧凑的,并且o远离其他簇,这是一种可取的情况。
当轮廓系数的值为负时,这意味在期望情况下,o距离其他簇的对象比距离与自己同在簇的对象更近,许多情况下,这很糟糕,应当避免。
另一个例子是 戴维森堡丁指数(DBI) [33],它是群内距离和群间距离之间的比率(也是平均值)。它确定了集群的紧密程度和分离程度。这些被称为内部有效性度量,因为它们只使用数据集和结果聚类的信息进行计算。
聚类算法评价指标——Davies-Bouldin指数(Dbi)
DBI值越小越好
另一种方法是根据应用领域进行外部评估。在那些聚类只是正在构建的系统的一部分的情况下,评估聚类算法如何影响系统的全局行为是很重要的[34]。在此,聚类质量将通过使用该信息检索(IR)领域中的标准度量获得的推荐的质量来间接测量(参见第4节)。
3. 通过对文档进行聚类来构建多方面用户画像
正如我们在本文简介中提到的那样,由于用户可能对许多不同的主题感兴趣,并且他们的用户画像由一组概念或包含加权术语的主题组成,因此我们可以说用户画像是多方面的,因为它尝试捕获与用户相关联的文档集中包含的不同方面。
在本文中,一个用户画像的每一面将会被称为子画像。
这些多面的用户画像与整体式用户画像相反,在整体式用户画像中,底层主题并不明确。
在大多数情况下,这些概念是隐藏的,即它们隐含在文档集中。这意味着需要一个自动提取或学习它们的过程。
在我们的案例中,我们应用了聚类分析。这个想法是将文档集聚类,以获得k组文档。
3.1 文档聚类
当要聚类的对象是文本时,就像我们的情况一样,这个过程称为文档聚类。
这种机器学习技术第一次应用于信息检索是在40多年前,其目的是提高检索过程的效率,由此产生了基于聚类的检索模型[35]。
一旦文档被聚类并且相关文档被放置在同一组中,给定由用户提交的查询,这将面对聚类的代表,并且系统将返回属于那些其代表最接近查询的聚类的文档。
应用这种基于聚类的检索模型的基本假设是聚类假设,即“紧密关联的文档往往与相同的请求相关”[36]。
1 | graph TD |
图1示出了应用于信息检索聚类的一般过程。
给定要对其执行聚类的文档集合,第一步是对其进行==预处理==,这可能包括标记化(提取标记或术语,通常在非字母字符处进行拆分)、停止单词移除(移除集合中最常见的单词,如虚词)和词干(移除单词后缀,并将单词保留在其词汇词干中)。
下一步可能是==特征(术语)的降维==,因为我们正在处理一个高维问题[37],通常移除非常罕见的术语(那些出现在少于给定百分比的文档中的术语)。
==文档术语矩阵的构建==是流程的下一步。
行对应于集合中的文档,列对应于术语。
因此,文档由包含列中集合中不同术语的向量表示。如果文档包含一个术语,则在相应的单元格中会有一个反映该术语在该文本中的重要性的权重(通常使用TF-IDF方案),否则为0.0。
该矩阵通常非常稀疏,它将和要生成的聚类数量,作为==聚类算法的输入==。作为输出,它将在这样数量的聚类中提供语料库的划分,
并且在每个聚类中,所有文档之间的相似度很高(可以说聚类中的所有文档都处理相同的主题),而与文档与来自其他集群的文档之间的相似度较低。
这些集群可以应用于许多IR任务[38],例如,文档组织和浏览,文本摘要,文档检索等。
3.2 全局和局部的聚类方法
为了基于用户文档的内容创建用户个人资料,我们可以考虑两种将用户文档聚类的方法。
第一种是==局部方法==,它为每个用户在局部查找基础文档组,即仅考虑他们的文档。
另一种方法是==全局方法==,因为它对每个用户的所有文档执行聚类过程。
第一种方法捕获特定用户的主题,而第二种方法尝试找到通常每个用户都共享的通用概念。
这意味着在本地群集中,学习到的组对每个用户都是独占的,因此仅包含该用户的文档。在全局群集中,群集将包含来自不同用户的文档。
因此,通过将每个全局群集中属于给定用户的文档进行分组,可以从此全局群集中获得每个用户的特定群集。
图2说明了这两种方法。
应当注意,在局部方法中,对于给定的用户,实例的数量等于与其相关联的文档的数量。对系统中的每个用户重复集群过程,因此所有用户都将获得自己的集群。
另一方面,在全局方法中,实例数是系统中的文档数,并且聚类算法仅执行一次。
图3中,左侧的图显示了所有用户X的文档的排列以及它们如何被分组为相似文档的局部簇。通过此聚合,将为用户构建三个子用户画像。
就将所有用户(X,Y和Z)的文档合并到聚类算法中的全局方法而言,中间的图显示了找到的假设组。集群c2,c3,c5和c6在它们集成了来自不同用户的文档的意义上是异构的。
如果我们再次关注用户X,则遵循此全局方法要构建的用户画像的数量将取决于文档所属的集群的数量。
右侧的图,我们可以看到为X考虑了新的群集,因此X的群集的最终数量为6,因此,这将是与此用户相关联的子用户画像的数量。
3.3 从集群建立子画像
在本地方法和全局方法中,无监督学习过程的==最终输出==都是从给定用户到群集的每个文档的关联。
在同一集群中分组在一起的用户的所有文档都应该处理相同的概念。
然后,我们将从与用户相关联的每个群集中构建一个子画像。
为此,对于每个用户和给定的群集,通过编译同一群集中包含的所有文档来创建“宏文档”。该文档将对应一个子用户画像。
生成一个新文档集合,其中包含来自所有用户的所有子用户画像文档。这将被索引以供信息检索系统(IRS)使用。
当查询提交到系统时,它返回一个排名,在该排名中,来自同一用户的不同子画像可能会分布在整个系统中。
正如我们向专家推荐的那样,最终排名必须由用户组成,因此有必要使用某种融合策略为每个用户计算最终得分,同时考虑排名中所有不同的子画像。
图4说明了此过程。
4. 评估
本文解决了寻找人(专家)的一般问题,但我们的评估将集中在议会环境上。基本目标是根据公民提出的查询找到相关的国会议员(MP),或确定哪些国会议员可能对阅读系统收到的新文档感兴趣。
为了做到这一点,我们选择了以议员的身份来代表国会议员的利益,该简介将在议员对公开议会会议上提出的政治倡议进行干预的基础上建立。更具体地说,让我们考虑到这样一个事实,即国会议员可能会参加多个委员会,而且就议员人数而言,这些委员会的人数较少,并且涵盖了更具体的主题。由于用户可能对几个政治主题(例如农业,教育,经济等)感兴趣,因此,目的是为每个国会议员创建子画像,以代表国会议员对这些不同主题的兴趣。
该评估的总体目标是确定文本聚类是否是自动识别用户感兴趣的不同主题的有效工具,以及向他们推荐专家并为他们过滤信息是否有用。为了实现这一目标,我们建议通过本节中描述的评估来回答以下特定的研究问题:
- RQ1:文本聚类是否是一种适当的技术,可以通过考虑议会背景的特定特征来自动提取某个人感兴趣的主题?
- RQ2:基于聚类的子画像是否对筛选和推荐任务有效?
- RQ3:在局部和全局范围内构建集群之间有什么区别吗?
- RQ4:集群数量与推荐质量相关吗?
- RQ5:这些任务的最佳群集算法是什么?
因此,在本节中,我们将描述实验设计以及在此评估阶段进行的实验结果。
4.1 测试集
我们用于实验的数据集是西班牙安达卢西亚议会的议会会议记录的集合,更具体地说是属于第八届任期的会议记录。1数据集下载
这是根据委员会和全体会议上讨论的倡议组织的,其中包括共有5258条记录,涉及12633项干预措施。有26个不同的委员会,共有132名发言人。
出于实验目的,我们仅选择了具有至少10种干预措施的国会议员。
4.2 推荐器和筛选系统概述
检索模型
为了推荐给 市民查询 或 要过滤文档 的议员,我们使用了开源Apache Lucene Library 2,将众所周知的BM25模型实现为检索模型[39]。
对于每个$ MP_i $,索引器的输入是其子画像的集合。例如,要为$MP_5$索引的文档是三个群集c1,c2和c3(因此总共3个,分别称为$MP_{5_c1}$,$MP_{5_c2}$和$MP_{5_c3}$)的子画像。
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。
bm25 是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法
预处理
使用在Lucene西班牙文本分析器中实现的词干分析器,可以过滤掉这些词中包含的术语,删除停用词,并将其简化为词根。然后删除少于1%的干预措施中出现的任何术语。
给定查询,将MP子画像的排名作为输出给出。
但是,由于最终目标是根据MP与查询的相关性对MP进行排名,因此通过考虑[6]中介绍的CombLgDCS方法对原始排名进行过滤。此策略通过汇总其子画像的不同分数,但根据其在排名中的对数进行贬值,为每个$MP_i$计算单个分数。公式如下:
- $MP_i$是一个议员,
- q是一个用户查询
- $MP_{i_cj}$是此政治人物排名中的一个子画像,
- $s(MP_{i_cj})$表示其得分值(画像与查询q之间的相似性),
- $rank(MP_{i_cj})$是$MP_{i_cj}$子画像在排名中的位置。
一旦为每个MP计算了分数,它们就会相应地得出一个排名。
4.3 聚类算法
在我们的实验中,我们测试了以下聚类算法的R实现:
- 作为分层方法的AGNES和DIANA(分别为自底向上和自顶向下),
- 作为基于质心的方法的K-Means和PAM,
- 最后是分别是
基于生成统计模型的潜在的Dirichlet分配(LDA)方法和
基于人工神经网络的自组织图(SOM)方法
选择这些算法是因为它们是最新的聚类方法,或者已在聚类过程中使用。
- 基于质心的方法和分层方法都使用余弦相似度来计算个体之间的距离。
- 对于用于聚类的LDA算法[27],一旦该算法找到了所有文档的主题分布,便会将每个文档分配给与其最可能的主题相关联的聚类。
- 关于SOM,它也可以用于将相似数据分组在一起。
一旦获得SOM输出,并且每个文档都与一个神经元相关联,就会有一组权重向量,它们代表神经元在数据离散空间中的位置,并且可以使用任何聚类根据它们的相似性对这些向量进行分组的方法,从而创建实际数据的相似实例的群集,这些群集附加到群集的神经元。
在我们的案例中,我们将SOM与K-Means算法(称为SOM-KM)结合使用,因为它已被视为一般聚类任务中的最新技术[40-42]。
4.4 选择聚类数量
正如我们已经提到的,在应用聚类的任何问题中,作为输出给出的聚类数k都是重要的问题。理想的情况是自动选择最佳值,但这并不容易。
在我们的实验中,我们尝试了不同的方法,其中k是固定的或通过考虑一些依赖于集合的数据自动计算得出。更具体地说,我们使用以下替代方法进行了实验:
k = #Com(常量) ⇒
- 对于全局群集,这表示安达卢西亚议会第八届任期的委员会数目,即26。
- 对于局部群集,此数目特定于每个国会议员,是每个国会议员MP参加的委员会的数目:平均为6.02个委员会,标准差为4.52。
将此值设置为k的目的是确定聚类算法能够重现官方委员会给出的议会倡议组的程度,这被视为基本事实。
k = m * n / t ⇒
- m =安达卢西亚议会集合中的术语数;
- n =集合中的干预次数;
- t =文档项矩阵中非零条目的数量。
这适用于两种聚类方法,尽管m,n和t的值将取决于其相应的类型。
- 在全局聚类的情况下,
m为4208;
MP干预的总数(n)为10025(干预总数的80%(训练分区),
t = 1,702,296。 - 对于局部聚类,这些数字有所不同,因为它们取决于每个MP干预的数量,但是平均,
m = 3427.45±2056.15,
n = 58.11±58.55,
t = 12106.66±12064.64。
全局聚类的k的最终值为k = 24,而局部局部的k的最终值为15.85±9.67。
$k =\sqrt{n/2}$ ⇒
- 对于全局聚类,该值是70,通过考虑n = 10025(干预总数的80%-训练分区)计算得出,
- 而对于局部聚类,则为a的干预数量给定MP对每个政客而言都是特定的,则平均值为4.25±2.60。
4.5 实验环境
这组倡议集合被随机分为一个训练集(80%)和一个测试集(20%)。
训练集用于从获得的聚类开始构建MP子画像,而测试集用于评估目的。
此过程重复五次,在本文中,报告的结果为平均值。换句话说,我们使用重复的保留重采样方法。
我们将使用倡议的内容(全文)作为过滤过程的查询(在这种情况下,我们的目标是将倡议分发给可能感兴趣的任何MP)
以及MP的倡议标题推荐方法(例如,目的是找到一个可以与之交谈的国会议员,因此我们可能希望获得排名最高的相关国会议员)。
在这两种情况下,并着重于相关判断,由于目标是找到可能熟悉该主题的国会议员,因此每个查询的基本事实仅包括那些参加其相应倡议的国会议员。
由于可以很合理地假设一项倡议也可能与其他未参与计划的议员相关且感兴趣,因此我们可以说,这是一个相当保守的假设,需要评估,尤其是对于过滤任务。
给定查询,搜索引擎将返回MP排名。因此,为了评估质量,我们将使用众所周知的精度和召回率指标,重点关注前10个结果(分别为p @ 10 /用户画像前10/ 和r @ 10 / 排名前10/)。我们还将考虑归一化DCG(Discounted Cumulative Gain(DCG)是衡量排名质量的一种方法)[43](ndcg @ 10),以便考虑相关文件的排名
为了确定学习子画像是否是表示MP画像的好方法,我们选择将结果与三个不同的基准进行比较:
- 每个MP的单个用户画像(整体用户画像)。从国会议员对他们所有不同倡议的干预中,只会为他们建立一个档案。此用户画像将包含他们感兴趣的所有主题。我们可以说k = 1。
- 根据每个MP所涉及的委员会为其构建了几个子用户画像(基于委员会的子用户画像)。通过考虑他们的差异委员会干预,每个国会议员将具有不同的关联子用户画像。委员会的干预将成为建立相应子用户画像的输入。从实践的角度来看,如果给定的国会议员参加了k个委员会,则其档案将包括k个子用户画像。
- 国会议员参与的每个计划的一个子用户画像(基于干预/倡议的子用户画像)。这是极端情况,每个国会议员对一项倡议的干预都将包括其自己的子用户画像。因此,与MP相关的子用户画像的数量将与她/他的主动干预的数量相同。
这些基准背后的基本思想是有两种极端情况(即,每位国会议员有一个画像简介,或与其干预措施的数量一样多的画像),中间则有一个,由他们参加的委员会确定子简介的数量。预期的情况是,MP推荐和筛选任务在基于聚类的子用户画像中将比基线获得的性能更好。
4.6 结果
在以下各节中,我们将介绍实验结果并回答以下研究问题:
4.6.1 RQ1:文本聚类是否是一种合适的技术,可以在议会中自动提取主题?
为了回答第一个研究问题,我们将展示集群如何涵盖会议中讨论的政治主题,同时考虑到针对特定国会议员的定性分析和针对委员会的广泛定性分析。
个体定性分析。
该分析考虑了伊兹奎尔达·尤尼达(Izquierda Unida)政党的国会议员。我们之所以选择他,是因为他是一名多产议员(在第八届任期中,他在172个不同的会议上讲话)涵盖了广泛的主题(在全体会议上有97项干预措施,他还参加了14个专门委员会或工作组的干预,其余75项干预措施) 。那么,国会议员“真正”感兴趣的主题是什么?可以说,这些问题与他所参加的委员会有关,但是为了国会议员的利益,有些话题比其他话题更具力量是很常见的。
为了量化这个想法,我们可以在表2中看到第二列,在这里,我们显示了他不同干预措施的规模(以术语的百分比表示)(请注意,一半的权重位于全体会议上,其中可能讨论几个主题)。请注意,从这些数据中我们可以看到他专注于平等与社会福利,文化与健康(代表他在委员会中的干预措施的70%,即不考虑全体会议)。
表2 MP干预措施在任期内的分布(按个人资料的大小)。
第二列显示了考虑到议会中的实际会议的“真实”分配。
第三列显示了考虑学习集群的分布。
实际分配 | 聚集 | |
---|---|---|
全体会议委员会 | 0.500 | |
性别平等和社会福利 | 0.128 | 0.286 |
文化 | 0.121 | 0.151 |
健康 | 0.103 | 0.144 |
总统职位 | 0.046 | |
旅游和商业 | 0.018 | 0.021 |
欧洲事务 | 0.015 | 0.052 |
公共工作和住房 | 0.011 | 0.013 |
公共工作和运输 | 0.010 | 0.030 |
技术,科学和商业 | 0.009 | 0.063 |
贸易,技术与科学 | 0.009 | |
治理 | 0.008 | |
司法 | 0.008 | |
广播电视 | 0.007 | 0.016 |
环境 | 0.005 | |
经济话题 | 0.139 | |
性别暴力话题 | 0.066 | |
劳工运动话题 | 0.007 | |
教育话题 | 0.007 | |
年轻人话题 | 0.006 |
让我们首先考虑那些不执行任何聚类算法的情况,即,整体式和基于委员会的用户画像。着眼于整体用户画像,我们发现它由与议会程序相关的术语所占据,这些术语难以识别国会议员所感兴趣的主题,如图5左侧的单词cloud所示。
另一方面,如果我们考虑基于委员会的子用户画像,例如参见图5中从“性别平等和社会福利委员会Gender Equality and Social Welfare Committee”获得的正确词云,尽管与该委员会相关,但与委员会相关的术语仍占主导地位议会中出现了一些用语,但出现频率较低。着重于全体会议上的大量干预措施,我们之前与给定主题没有任何关联,因此它们以较大的轮廓加入,显示出与基于整体的轮廓相同的模式。
图5. 不同配置文件的词云表示形式:左图显示了Monolithic(所有干预措施都形成一个唯一的配置文件),右图显示了基于委员会的配置文件,该配置文件是使用“性别平等和社会福利委员会——Gender Equality and Social Welfare Committee ”的数据获得的。
现在,我们将集中讨论应用聚类算法(尤其是全局K均值)后获得的结果,K值等于26。
在这种情况下,MP的所有干预(包括全体会议)均分布在14个26个候选集群。表2的最后一列显示了每个群集的大小(以术语的百分比表示)。
为了确定每个群集的主要主题,一种逻辑方法是查看群集中最常见的术语,即那些对此贡献最大,并为集群分配他们建议的主题,出现不同的情况:
- 如图6的左侧所示,红色字样暗示该集群与文化有关,因此可以在集群中的文档和给定委员会之间找到1对1匹配。
- 同样,一个委员会可以分为不同的主题,即1对n。例如,如图6右侧的图形所示,聚类能够发现“性别暴力”作为新话题。该集群中的干预措施与“性别平等和社会福利”委员会高度相关,但是集群能够区分“性别暴力”和“社会福利”。
- 将两个不同的委员会以2对1的方式加入集群:“技术,科学和商业”,“贸易,技术和科学” 这两个高度相关的委员会的干预措施被归为同一集群。
- 发现横向主题,从n对1:存在由多个委员会干预的集群,例如“经济”主题,代表了国会议员的横向兴趣。本主题包括全体会议和大量委员会的发言。这反映出经济是所有政治活动所共有的多学科主题,尽管没有明确说明。
- 在其他情况下,全局集群仅包含该MP的一个干预,因此可以认为它们代表MP兴趣的边缘主题(表2中的最后三行)。
图6. 使用全局K均值作为聚类方法的两个不同学习配置文件的词云表示形式。 (有关此图例中颜色参考的解释,请参考本文的网络版本。)
因此,可以说,聚类能够确定国会议员所关注的话题,而不仅仅是他所担任的委员会。此外,它可以帮助在全体会议上将他的发言分配给各个主题。