国内外用户画像研究综述 - 徐芳
2020年论文
Research On Library Science
图书情报学论文?
概论-论文讲了什么
摘要中提取出的信息
- 用户画像的概念,分析用户画像的流程
- 用户画像研究的4个流派
- 行为流派
- 社交媒体流派
- 兴趣流派
- 基于本体的用户画像流派
- 用户画像在一些领域应用的现状
- 电子商务
- 医疗健康
- 旅游行业
- 图书馆
- 用户画像现有研究的不足之处
- 模型构建纬度单一
- 应用领域发展不均
- 模型构建缺乏评价
- 反馈机制
- 隐私问题
关键词
- 用户画像
- 研究流派
- 信息服务
细节
0.引言
背景
互联网发展导致信息爆炸。需要解决的问题:在信息海洋中精确地捕获自己所需信息
用户画像(User Profile )—— 提供精准信息服务的一种工具。
应用领域:图书馆,电子商务,健康医疗,旅游管理,精准营销
最常见的,比如电子商务,淘宝的商品推荐应该就用到了用户画像相关的东西
作用:更好的理解用户需求,实现个性化、精准化信息服务。
国内相关工作
相关论文
2017 年,陈慧香等从用户画像的基本概念、用户画像技术、用户画像模型等几个角度对国外用户画像的研究现状进行了较为系统的梳理
2018 年,刘海鸥等从用户画像的概念与界定、构成要素、模型与方法以及对图书情报学的启示等方面进行综述[3]
,并讨论国内外用户画像建模方法在图书馆领域的应用[4]
2019 年,宋美琦等研究者从用户画像的含义、用户画像的研究内容、用户画像技术及其应用价值 3 个方面回顾了国内外用户画像的研究动态并进行了述评[5]
2019 年,张海涛等研究者则从宏观视角运用 Cite space 等可视化工具对图书情报领域用户画像研究的发文量、研究机构、被引期刊、研究热点和研究热点的密度等内容进行了定量分析[6]
[2]陈慧香,邵波.国外图书馆领域用户画像的研究现状及启示 [J] .图书馆学研究,2017(20): 16-20.
[3]刘海鸥,孙晶晶,苏妍嫄,等.国内外用户画像研究综述 [J] .情报理论与实践,2018(11): 155-160.
[4]刘海鸥,孙晶晶,陈晶,等.用户画像模型及其在图书馆领域中的应用 [J] .图书馆理论与实践,2018(10): 92-97.
[5]宋美琦,陈烨,张瑞.用户画像研究述评 [J] .情报科学,2019 (4): 171-177.
[6]张海涛,徐海玲,张枭慧,等.国内外图书情报领域用户画像研究现状及展望 [J] .图书情报工作,2019(7):127-134.
局限
在用户画像的研究流派划分、用户画像应用领域的梳理等方面尚存在一些局限,缺乏系统的回顾与分析。
1.用户画像的概念与构建流程
1.1 用户画像概念
用户画像的概念:
- Cooper提出:他认为用户画像是真实用户的虚拟表示,是基于一系列真实数据(Marketing dala,Usability data)的目标用户模型。
- Massanari将用户画像用于描述产品的使用对象中并认为用户画像是按照用户姓名照片、兴趣爱好等特征对用户进行描述而形成的用户画像模型,强调了用户在产品开发过程中所起的决定性作用。
- 用户画像是参考用户性别、受教育程度等人口统计学特征、社交关系和行为模式等标准而分析、总结和构建出来的一种标签化了的用户模型
- 用户画像的过程包括搜集用户数据、分析用户相关的业务特色以及可视化数据分析结果等呵;用户画像代表了某类目标用户群的特征。
字如其名,画像,对用户进行刻画的一种印象,用来描输一个用户的各种特征。
总结:用户画像是以大量真实用户数据为基础,对用户行为、兴趣等进行特征抽取而形成的虚拟用户模型
用户画像的特点:
- 全面性
- 真实性
- 代表性
- 动态性
- 移情性(指企业和服务人员能设身处地为顾客着想,努力满足顾客的要求)
1.2 用户画像构建流程
1.2.1 数据采集
用户数据是用户画像流程的基础。
目前研究缺点:真实性偏差,比如多人共用一个账号
1.2.2 数据挖掘及过滤
数据挖掘及过滤是用户画像流程的核心和关键
目前研究缺点:重点在收集,而缺少过滤及清洗
1.2.3 标签提取及重组
标签提取与重组,直接影响准确性
什么是标签
标签是一个对采菜的用户数据进行挖掘与过滤,提取目标用户群的特征用高度精炼词语对这些特征进行标识的过程,具有语义化、短文本化、专一性等特点。
动态/静态标签
- 静态标签(2D标签):不经常变的,相对稳定的
- 人口属性
- 人格
- 动态标签(3D标签):具有动态特征
- Cookies记录
- 商品购买
- 社交行为
用户画像标签的划分
- 分类角度
- 用户行为标签
- 点击频率,浏览时间长短,搜索记录,评论
- 社会网络标签
- 用户角色,用户关系网络,个体与群体的关系
- 兴趣标签
- 用户兴趣偏好,历史偏好,兴趣转变
- 用户行为标签
- 等级排列角度
- 一年内的行为
- 一月内的行为
- 一日内的行为
- 社会关系网络角度
- 个人与群体的关系
- 个人与社会的关系
- 兴趣角度
- 当前兴趣
- 潜在兴趣
技术支持
- 数据采集方法
- 自编程序
- 八爪鱼爬虫软件
- 深度访谈
- 数据挖掘和过滤方法
- 聚类,分类:相似特征群体划分
- 关联规则: 相似性对象数据关系构建
- 决策树,协同过滤
- 常用数据挖掘算法如向量空间模型算法
- 标签提取和重组方法
- 用户兴趣模型构建:关联规则,标签评分,TF-IDF算法,社会网络分析
- 用户属性特征分析:数理统计,数据挖掘,机器学习
2.用户画像研究流派
2.1 行为流派
相关研究
国外方面代表性的研究主要有:
- 早在2005年,Barabasi的研究发现人们的行为轨迹服从“幂律分布(Power Law Distribution)”和人的行为都是可预测的。Adomavicius等研究者通过对用户阅读时间和点击率等行为进行分析来发现用户消费特征与规律,为用户画像构建提供支持
- Svendsen等研究技术接受程度行为与人的性格之间的关系,发现外向人表现出行为积极接受行为
- Iglesias 等研究人员应用聚类方法对不同用户群体行为的网络日志进行数据挖掘,为用户画像的构建提供支持
国内方面代表性的研究成果主要有:
- 郝增勇归纳了用户画像模型构建过程中用户行为分析的主要方法,如:用户流量统计、用户分布等。
- 王仁武等利用自编的 Python爬虫程序抓取高校教师和学生使用图书馆电子资源的访问时间、访问方式等日志数据,并对其进
行分析、标引、解析等处理,试图构建学术用户画像的行为标签。- 刘锦宏等研究人员应用“用户行为理论”和“技术接受模型(TAM)”,构建移动图书馆用户行为模型。何胜等研究人员分析了用户日志库中的数据,发现用户的显性兴趣和隐性需求,为制定个性化的用户服务策略提供支持
定义
用户画像的行为流派是==以用户行为数据为依据==,从看似散乱无序的行为数据中==挖掘出用户行为的规律与特征==,构建用户画像模型。
1 | graph LR |
优缺点
优点:根据用户画像模型,信息服务提供者可以预测用户的行动,实现精准信息服务的目的。用户画像行为流派的模型构建方法应用较为广泛。
缺点:用户画像行为流派的研究尚存在一些局限,如:用户画像模型构建方法与可视化、人工智能等技术手段的结合尚不够紧密,使得基于用户行为数据构建的户画像模型在动态性、立体感等方面尚有待完善。
1 | graph TB |
2.2 社交媒体流派
背景
社交媒体的出现改变了人类的信息行为,构建了现实社会中难以构建的虚拟社会关系。
在网络世界构建了各种各样的社会化联系,这种联系具有纽带的作用,增强了用户与用户之间的联系,且用户之间的联系具有实时性与动态性特征。
相关研究
用户画像社交媒体流派的代表性研究主要有:
- Bhtacharyya等研究人员以Facebook用户关键词为样本,分析用户之间的相似性,找到交友中受影响的相似之处。
- 徐海玲等人以豆瓣网为例,通赶来集和分析衽交媒体网站正的用户数据,构建了用户画像模型和资源画像模型。
- 林燕霞等研究人员以微博为例,通过采集和分析用户微博上的动态来挖掘用户感兴趣的主题,构建微博用户画像,发现用户画像在社交媒体个性化信息服务、舆论治理等方面能够产生一定的作用。
- 张亚楠等研究人员以科研社交媒体平台为例,通过采集和分析科研社交平台的用户数据,构建科研社交平台的用户画像,对于提高科研社交平台信息服务的精准性具有一定的参考意义
- 张艳丰等研究人员以移动社交媒体为例,通过采集和分析移动社交媒体的用户数据,构建了潜水忽略型、忍耐使用型、
平台转移型和行为替代型等用户画像模型例。
要点
用户画像社交媒体流派用户画像模型构建的要点有:
一是注重对用户==社交媒体社会关系==的描绘;
二是注重用户数据的==群体性特征==,根据相似性等指标将用户划分为具有某一共同标签的群体。
局限性
网络世界的虚拟性,可能与现实世界用户形象完全不同。
用户画像社交媒体流派的研究还需要对搜集到的社交媒体用户数据的真实性进行辨别,以便提高用户画像的准确性。
2.3 兴趣流派
定义
用户画像兴趣流派的研究特征主要体现在︰用户画像模型构建时是以==用户兴趣、偏好等用户数据==为基础。
相关研究
国外代表性的研究成果主要有
- Godoy等研究者采用聚类方法对用户浏览过的网页痕迹数据进行分析,以此来挖掘用户的兴趣、偏好等特征;
- Paxani等研究者对用户生成的兴趣标签进行分析,总结用户兴趣建档方法;
- Li等研究者对用户和社会化标签进行共现分析(Co-occurrence Analysis)来发现用户兴趣,利用主题聚类方法来划分用户兴趣主题﹔依据用户兴趣进行用户画像模型构建,从而提高个性化搜索的性能﹔
- 采用潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型来分析用户所关注的文档,挖掘用户兴趣主题并实现其可视化展示。
国内代表性的研究成果主要有︰
- 石宇等研究者以电影数据为例,采集和分析用户感兴趣资源的相关数据,构建用户兴趣画像模型﹔
- 王顺箸以图书馆智慧推荐系统为例,采集和分析了图书馆读者的数据,构建读者兴趣用户画像模型﹔
- 王庆等研究者以图书馆馆藏资源推荐为例,采集和分析了图书馆读者的兴趣数据,构建了单用户兴趣画像模型和多用户兴趣画像模型呵﹔
- 赵开慧采用聚类方法对用户标签和资源标签进行分析,实现用户内容的推荐R﹔
- 夏立新等研究者利用LDA主题模型分析用户标签的主题,探索用户兴趣层级演化规律,发现了始终处于核心层、核心层向边缘层淡化和始终处于边缘层的3种用户兴趣层级状态;
- 唐晓波等研究者以新浪微博为例,分析了新浪微博用户的兴趣主题,构建用户画像并实现个性化的信息推荐
可见,用户兴趣流派的用户画像模型构建主要是以==用户兴趣数据==为基础。
与用户画像行为流派和用户画像社交媒体流派不同,这种流派在描述用户画像时,重点关注用户的兴趣而非用户本身。
根据用户喜欢的商品或者兴趣点等数据进行深入的挖掘与分析,发现用户兴趣的特征与规律,以便将相似的产品或者服务推荐给感兴趣的用户。
2.4 基于本体的用户画像流派
定义
基于本体(Ontology)的用户画像流派是从==本体的角度对用户数据进行规范化的提取、定义、表达、组织和评
价==,构建一套能被广为接受和理解的用户数据本体体系,以便用户画像模型构建的重用和共享。
相关研究
国外代表性的研究有:
- Chen等研究者提出了一种基于本体的用户画像建模方法,以树图和空间图为基础;
- Razmerita等人提出了基于本体的用户画像模型架构,并应用该用户画像架构进行知识管理领域的移动用户行为研究I;
- Issam等人描述了一种基于通用本体的用户建模技术,以满足用户画像的需求;
- Hawalah等人将用户兴趣表示为本体概念,本体概念通过将用户访问的网页映射到参考本体来构建,然后被用于学习短期和长期兴趣的挖掘与分析
国内代表性的研究有:
- 郑建兴等人以微博为例,利用本体的部分结构来表示用户画像模型,提出了neighbor - user画像的实现方法,以便全面地反映用户兴趣
- 唐晓波等人构建了一种基于本体和标签的个性化推荐模型,并发现该模型优于传统的基于社会化标签的推荐
- 姜建武等人用结构化信息本体来表示抽象的用户,构建数学模型来研究结构化信息本体的提取方法
优缺点
可见,基于本体的用户画像模型构建流派相较于其它用户画像构建流派能够考虑信息源包含的具体含义,并且在语义表达能力以及逻辑推理方面具有更强的优势。
但同时也应该注意的是,该流派的研究技术性比较强,通常要求研究人员具备计算机等学科知识。
什么是本体
3. 应用领域
主要在电子商务,图书馆,健康医疗,旅游业等。
3.1 电子商务领域
在电子商务领域,用户画像的应用研究主要集中于针对客户特征的==个性化商品或服务信息的精准推荐==。
例如:
YouTube、Neflix等根据用户的浏览记录、点击记录等向用户推送他们可能感兴趣的视频或电影。在线购物网站等也会通过浏览器、网络爬虫等工具捕获用户行为数据,推荐用户浏览他们最有可能购买的商品。
洪亮等人以淘宝等电商平台为例,运用准确性、时效性、新颖性3个指标对不同电子商务网站的个性化信息推荐系统的用户体验认可度进行比较和分析﹔
李佳慧等人根据用户的消费习惯等特征和规律,利用RFM(最近一次消费(Recency)、消费频次(Frequency)以及消费金额(Monetary)〉模型辨别用户的潜在价值,构建用户画像以实现精准营销。
主要作用:
- 精准营销
- 广告投放
- 信息推荐
3.2 医疗健康领域
用户画像在医疗领域应用的研究成果较为丰富,研究主题主要聚焦于==高效率、高效益地处理好海量用户医疗数据==。
在此基础上对患者进行用户画像的构建,以便为每一位患者进行==精准医疗健康信息服务==。
国外代表性的研究主要有:
- Lerouge等人通过用户数据构建老年慢性病用户画像,并根据这类用户的需求特征,研发面向老年慢性病用户的应用程序和健康信息推荐系统;
- Wang等人提出了一个健康信息管理,该模型集中了个人信息的管理,使检索到的健康和医疗信息个性化。此前,该模型还考虑了检索信息的性能和用户隐私保护之间的权衡;
- Abidi等人根据用户的谈话内容进行健康信息的推荐﹔
国内代表性的研究主要有︰
- 唐晖岚等研究者通过采集书签数据对用户健康信息行为的特征等属性进行提取,构建用户画像模型并对用户未来的健康行为进行预测﹔
- 马费成等研究者尝试通过语义网络,构建用户健康画像的方案来实现精准化智慧健康服务﹔
- 张海涛等研究者运用Python自编的程序采集和分析在线健康社区的用户数据,构建在线健康社区用户画像模型,采用关联规则方法来挖掘不同用户群体行为规律的差异。
文献调查表明,与国外相比,国内用户画像在医疗领域的应用尚处于==起步阶段==。
3.3 旅游领域
用户画像在旅游行业的应用主要体现在旅游网站==在线旅游产品的精准推荐、旅游线路相关信息的精准服务==等方面。
国内外代表性的研究主要有:
- Ravi等研究者对用户兴趣、用户评价等数据进行挖掘与分析、提取用户特征、构建用户画像模型,综合用户地理位置等数据,实现为不同的用户个性化推荐出游方案的目的;
- Nilashi 采用协同过滤(Collaborative Filtering,CF)技术试图根据来自相似用户的数据来预测哪些信息将可以满足用户的需求,从而为潜在客户推荐适合的旅游线路﹔
- 单晓红等研究者以携程网北京地区酒店的在线评论为例,对酒店用户本体、用户评论中对产品的情感倾向进行构建,刻画酒店用户的用户画像,以便进行精准营销以及更完善的个性化服务﹔
- 常亮等研究者尝试构建基于用户个性化需求的旅游推荐系统,该系统主要包括用户模块以及成果展示即旅游信息推荐模块R。
国内外用户画像在旅游行业的应用尚处于==初级阶段==
现有研究:主要关注以用户基本数据、兴趣数据、行为数据为基础的用户画像
待加强:多维度、综合性的用户画像模型及其应用等方面
3.4 图书馆领域
图书馆作为公共文化场所,具有教育、提供信息服务的职能,为了更好地服务读者,为读者提供==精准的信息服务==,用户画像在图书馆领域的应用研究日益受到了学界的重视。
- 早在1985年,英国国家书目和Blaise - line通过电话采访和个人访谈的方式调查用户对英国国家书目和Blaise -line 的使用情况并形成相关分析,来优化信息服务
- Thompson”发现用户画像是优秀的图书馆服务营销工具,应用用户画像技术可以实现图书馆的精准信息服务
- Johannsen发现用户画像设计方法已经在工业、情报学研究和学术图书馆研究中得到了成功应用,相信他们能在公共图书馆中成功地应用。
国内方面近年来关于用户画像在图书馆领域的研究逐渐增多,代表性的研究主要有:
- 陈添源基于移动图书馆特定情境下,构建其用户画像标签体系,以标签体系设计问卷并调研高校移动图书馆用户的人口统计属性、使用行为和使用心理偏好等变量,利用因子分析、聚类分析和判别分析法选取适宜的用户画像个数,为图书馆应用用户画像提供支持﹔
- 梁荣贤回顾和梳理了国内外用户画像研究的动态与发展趋势,提出我国图书馆领域应用用户画像的建议﹔
- 李丹等研究者尝试通过构建图书馆读者用户画像来优化图书馆的推荐系统,以此提高图书馆的信息服务水平。
可见,目前用户画像在图书馆应用领域的研究主要集中在图书馆的==个性化信息推荐服务==上,其主要目的是通过用户画像的应用,提高图书馆用户信息服务的精准程度。
4. 现状述评
尚有不足:
- 用户画像构建维度较为单一
- 显性/隐性:现研究基础/行为/兴趣等基本数据,多为显性;内容/社会关系网络等隐性信息不够深入。
- 纵向/横向:对不同平台,不同时间段
- 未来重点:动态跟踪挖掘用户数据特征与规律,动态性/真实性
- 应用领域研究发展不均
- 电商:较为成熟
- 图书馆:正在增加
- 旅游/医疗:起步较晚成果不多。
- 医疗目前只是已有信息,缺乏预测。
- 缺乏评价和反馈机制
- 真实性/准确性缺乏评价,可以增加“反馈”机制。
- 虚假信息/信息滞后性/研究人员理解能力偏差
- 隐私问题凸显
5. 总结
背景
用户画像概念及作用
研究流派
构建流程
应用领域及现状
不足之处