基于深度学习的个性化推荐系统的探讨范文

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:vicky 点击次数:
论文字数:38555 论文编号:sb2021072414231236523 日期:2021-08-12 来源:硕博论文网
本文通过对基于隐式反馈信息提出两种模型,取得了较好的模型效果提升。然而本文研究仍然存在值得改进的地方,在图神经网络因其具有能够充分挖掘用项目的特征信息特点,因此可以通过构建用户-用户图、项目-项目图以及用户-项目图等多个复杂图,进而利用图卷积神经网络技术学习到用户、项目的有效关联信息,并且与评分数据有机融合到统一模型,能对推荐性能做进一步提升。

第 1 章 绪论

1.1 研究背景及意义
目前,我国已经正式进入 4G 时代转型 5G 时代的关口时期,为了加快 5G“新基建”建设进度,我国目前已开通 5G 的城市已超过 50 多个,基站的建设已覆盖了 28 个城市,5G 的建设势必将推进互联网到产业互联网的巨大转变。第 47 次《中国互联网络发展状况统计报告》[1]由中国互联网信息中心(CNNIC)在 2021 年 2月 3 日进行了发布,该报告指出:截至到去年 12 月,我国网络用户规模达到 9.89亿的人口量,接近 10 亿,其次互联网普及率已经达 70.4%,成为世界上实至名归的互联网第一大国。报告显示,我国在世界上已成为最大的网络零售市场,仅 2020年,我国的网络销售金额就高达 11.76 万亿元。同时用户在各个应用领域的使用率都呈持续增长模式,如网络音乐平台上的听众规模都达到了 6.58 亿,比起去年增加了 2311 万。在我国互联网通信技术爆炸发展的同时,随之而来的是爆炸增长的是信息量。国际数据公司(IDC)预计,我国将以 48.6ZB 的数据量在 2025 年登上全球数据量最大的宝座,成为名副其实的数据大国[2]。巨量的数据意味着巨量的资源,这些资源如果利用得当就会变成现实的财富。海量级别的信息量对我国乃至全球都是一个巨大的挑战和机遇。
互联网上的巨量信息数据使得用户在查找数据时往往眼花缭乱、筋疲力尽。通常在浪费时间的基础上,用户还无法有效地查找到自身需要的信息内容,即降低了对信息的利用率,信息过载[3](information overload)问题。信息过载造成的用户查找处理信息的局限性和疯狂増长的数据信息量之间的矛盾将会愈发明显,因此,为了迎合商家和企业对自身产品的利益追求,也为了满足用户对于自身感兴趣信息的获取需求,经过多年的研究有两项意义深远的技术被发明出来:一是信息搜索引擎,它归属于信息查询领域。搜索引擎是通过将大量数据以建立索引,并给用户提供搜索接口的方式来实现的。借助搜索引擎用户根据自己的查询需求,在搜索接口框中输入关键字等进行信息搜查,例如百度搜索引擎、谷歌搜索引擎等;但是搜索引擎过于依赖用户主观需求,然而多数情况下用户对自己的潜在需求并不十分明确,用户可能对自己的需求无法准确地用关键字表示出来,从而导致搜索出来的内容并不是自己需要的,而且兴趣有差异的用户在搜索相同关键词时会得到同样搜索结果。
.......................

1.2 研究现状
1.2.1 推荐系统
推荐系统最初是源于信息检索、预测理论、信息管理等相关的研究领域,到了 20 世纪 90 年代,各个国家的研究学者对推荐系统进行了关注和研究,并提出了许多的推荐方法,逐渐发展成为一门独立的学术研究领域。1992 年,Goldberg[4]等人提出了一个 Tapestry 邮件系统用来处理邮件信息过载的问题,该系统就是最初的推荐系统。自此,推荐系统正式地登上了历史的舞台。1994 年,明尼苏达大学的一个研究小组提出了 GroupLens 新闻推荐系统[5],它是一个利用用户在阅读后对文章进行评级的历史数据进行预测的协同过滤的网络系统,从而为用户推荐感兴趣的新闻内容,这是个性化推荐系统发展历史上一个伟大的章程。1995 年 3 月,卡耐基梅隆大学的 Robert[6]等人在美国人工智能协会上给万维网提出了一个信息寻求助手,即智能导航系统 Web Watcher,该系统通过使用已知的关于哪些超链接可能导致目标信息的知识,交互式地帮助用户定位所需的信息。来自于斯坦福大学的 Balanovic[7]等人为了了解和更新用户的兴趣,设计了一个个性化网页推荐系统 LIRA,该系统可以每天为用户推荐有趣的页面内容,并收集用户的反馈来更新的用户的兴趣。1995 年 8 月,麻省理工学院的 Lieberman[8]等人提出了一个用户界面代理,即帮助用户浏览万维网的个性化智能导航系统 Letizal,该系统采用一个最佳优先搜索方法来跟踪用户行为,根据浏览行为启发式推理用户的兴趣,并试图通过从用户当前的位置并发自主地探索链接来预测用户感兴趣的项目。1996 年,Yahoo 提出了个性化推荐服务系统 My Yahoo。1997 年,Resnick[9]等人第一次提出了一个具有标志性意义的词语,即推荐系统(Recommender System, RS),自从它诞生之后,便被各大研究学者广泛使用,并延续至今,同时它也代表着推荐系统这一独立的学科创建的开始。2003 年,Amazon 网站作为推荐系统的商业界先驱,提出了一种基于物品的协同过滤算法[10]。2003 年,Google 公司首创了在网页上向用户提供广告从而盈利的方式,该模式主要靠收集和分析用户在搜索引擎框中输入的查询内容关键词,进而分析用户的喜好,在用户浏览网页的过程中推荐相应的广告。2006年Netflix 公司组织了一场将 100 万美元当作奖金的推荐算法竞赛[11],这场为期三年的比赛直接将推荐系统推向研究高潮,在这次比赛中在这次比赛中,提出了许多优秀的算法来提升个性化推荐系统的推荐精度,其中主要研究方向以隐语义模型和矩阵分解研究为主,基于降维的奇异值分解技术的相关研究也在比赛中崭露头角。2007 年,美国举行了具有历史交流意义的第一届 ACM 推荐系统大会(ACM Conference Recommender Systems, RecSys),这次大会使得学者们有了更好交流的平台。之后也有 KDD、AAAI、IDCM、ICML、SIGIR 等顶级会议也开始注重推荐系统的研究,并将其作为一个研究专题,每年收录大量的相关论文。2009 年 7 月,百分点公司成立,这是国内首个个性化推荐系统研究团队,该团队专注于个性化推荐、电子商务个性化精准营销。2011 年 9 月,李彦宏在百度世界大会上,指出推荐系统与云计算、搜索引擎将成为未来互联网重要战略规划以及未来发展方向[12]。
............................

第 2 章 相关工作以及研究理论基础

2.1 传统推荐系统
Yehuda Kore[51]根据推荐算法的各自特点,将推荐系统划分为基于内容的推荐( Content-based Recommendation ) 、 协 同 过 滤 推 荐 ( Collaborative FilteringRecommendation)以及混合推荐(Hybrid Recommendation)。
基于内容的推荐算法是最早使用的推荐算法,该方法就是根据用户的信息、用户交互过的项目以及对项目的操作进行建模,主要思路是找到用户曾经喜欢的项目,并分析待选项目与喜欢的项目之间相似程度进行推荐。该算法主要分为三个步骤:首先,对候选的项目进行特征抽取征,即特征表示;其次,对用户交互过的项目进行特征抽取,并学习出用户的喜好特征,即用户喜欢的项目的特征;最后,计算用户的喜好特征向量与候选项目特征向量之间的相似性,并根据排名高低为用户推荐相似性较高的项目。协同过滤推荐算法是推荐系统中最经典一种算法,也是应用最广的一种算法。该算法存在着这样一个假设,如果用户之间在过去的时间里存在着相似的兴趣爱好,那么他们在未来也可能会用相同的兴趣内容。主要可分为两类:基于近邻的协同过滤和基于模型的协同过滤两大类。
基于混合的推荐算法:由于每一种推荐算法都存在着优缺点,不能在任何情况下发挥出很好的推荐效果,因此,为了提高推荐算法的性能,便产生了混合推荐算法,该算法就是融合两种或以上的推荐算法,从而扬长补短,博才众长。
图 2-1 基于用户的协同过滤
图 2-1 基于用户的协同过滤
.....................

2.2 用户行为反馈机制
个性化推荐系统的核心就是根据用户的历史行为等信息来进行建模,从而为用户推荐感兴趣的信息。个性化推荐系统主要是通过对用户的行为特征进行反馈从而进行推荐。其具体可以分为显式行为反馈信息(explicit behavior feedback)和隐式行为反馈信息(implicit behavior feedback)两种方式,这两种方式是通过用户行为反馈机制区分的。
2.2.1 用户显式行为反馈
显式反馈,顾名思义就是能够明确表示用户意图和喜好的信息,比如用户在网站指引下或者自己主动对于某些项目进行的评分,例如,用户在淘宝的店铺购买过衣服之后,对衣服进行评论和评分。常见的显式反馈信息有评分、评级、点赞等行为。显式反馈可以通常可以反馈用户真实兴趣偏好,如果应用到推荐系统中,可以降低数据预处理所带来的麻烦。但是上述方式不能实时追查用户兴趣的改变,通过使用户主观评分的方式可以知道用户的目前的偏好,但是也不能强制让用户去评分,同时很多用户担心个人隐私的泄漏,处于安全的考虑,甚至向网站提供虚假的信息。所以想要获取大量的显式行为反馈的难度非常大,面临着数据稀疏、新用户的冷启动等问题。
2.2.2 用户隐式行为反馈
与上节的收集方式不同,隐式反馈方式主要是以挖掘用户不知情的情况下留下的浏览记录等数据的方式的信息数据,并利用他们抽取出用户的偏好信息,进而为其进行个性化的推荐。网络用户的网页浏览时间,访问网页的次数以及浏览页面时产生的页面操作行为(如浏览、收藏、评论等)等均是用户重要的隐式反馈数据的来源。所以与显式的行为数据相比,隐式的行为数据的内容相对多一些,更能够客观的反映用户当前兴趣。
表 2-1 显式反馈的喜好程度量化的方式
表 2-1 显式反馈的喜好程度量化的方式

....................

第 3 章 基于网络用户浏览行为的用户偏好分类模型·······················25
3.1 引言 ······························25
3.2 1D-CNN ······················25
3.3 1D-CapsNet ··························27
3.4 1D-CNN+CapsNet ························29
3.5 实验与分析 ·································30
第 4 章 基于社交信任和标签语义相似度的概率矩阵分解模型·······················39
4.1 引言 ······················39
4.2 社交信任 ··························40
4.2.1 改进的社交信任························41
4.2.2 融合社交信任的概率矩阵分解模型 ·······················42
结论······················55

第 4 章 基于社交信任和标签语义相似度的概率矩阵分解模型


4.1 引言
随着计算机技术的快速发展,近年来涌现了如 Facebook、Twitter、微博等大批的社交网络平台,用户时常在社交平台上进行在线交流和信息分享活动。便捷的社交媒体使得网络用户之间交互地更加频繁,这使得用户在现实生活中的社交关系逐渐向社交网络转变,通常情况下,一个人的喜好很容易受到其好友的影响,那么用户在社交网络上的行为会直接或间接影响其在 Web 上的行为。用户之间的偏好如果越相似,那么他们两个的信任度便越高。为了更容易为目标中的用户提供个性化的推荐。目前很多研究人员,将社交信息引入推荐中,取得了不错的效果。例如文献[75]提出一种融入用户社交关系与信任关系的推荐方法。文献[76]中从用户的历史行为的基础上,引入了用户关系中的潜在社交关系,实验结果表明加入信任提升了推荐精准度。文献[77]通过用户在社交网络中的共同评价条目和角色重要性来推断用户的内隐信任关系,提高预测精度。在许多社交系统中,用户不仅会分享自己的偏好信息,还会给感兴趣的内容贴上各种标签。标签信息不仅可以看出用户的喜好,还可以是直接反映出项目的具体描述内容,可以是有趣和有用的信息,因此,标签可以是非常重要辅助信息,可以用来增强推荐系统的性能。文献[78]利用标签生成关键词向量,并定义为项目的信息内容特征,同时引入标签权重,进一步提高了推荐算法的准确性。针对传统协同过滤推荐算法中由于相似度计算导致推荐精度不足的问题,文献[79]提出一种改进的基于标签权重的项目相似度的方法来提升推荐效果。为了利用相似的用户和资源信息来增强评级稀疏性,文献[80]设计了基于标签信息和用户历史行为的用户和资源特征表示,并区分每个标签词对相应资源项的意义,从而精确描述项目特征,采用概率矩阵分解的方法克服了评级稀疏性,实现更准确的预测和更高的推荐效率。本章结合以上算法的优点,通过社交标签以及朋友关系来有效衡量用户和项目之间的隐含关系,从而建立一个更能准确描述用户兴趣、以及用户项目特征表示的推荐模型。
.........................

结论


本文先对推荐系统的发展过程进行了介绍,紧接着对本文重点研究的内容的研究现状进行了讲述,最后对本文涉及到的算法和相关深度学习技术理论知识进行了逐一讲述,并在这些算法的基础上,做出了如下工作:
(1)为了对用户在网上浏览过程中留下的页面浏览时间、拖动滚动条次数等等隐式反馈行为进行量化,本文考虑到包括用户浏览时间、拖动滚动条次数在内的 14 种网络浏览行为在隐类空间中对用户兴趣的影响,因此,引入卷积神经网络和胶囊网络对浏览行为特征进行抽取,从而建立起一种用户偏好分类模型。
(2)针对个性化推荐过程中评分数据稀疏性引起的推荐效果不佳的问题,考虑到用户会很容易受其所信任的朋友影响,从而偏向于朋友的推荐的项目。其次,相似的项目通常有相似的标签,标签的语义信息能够更好地反映物品的特征,标签的权重代表了其在物品标签框架中的重要性,因此,提出一种基于社交信任和标签语义相似度的概率矩阵分解模型,在 last.fm-2k 数据集上进行充分的实验验证了本文提出的改进算法的有效性。
本文通过对基于隐式反馈信息提出两种模型,取得了较好的模型效果提升。然而本文研究仍然存在值得改进的地方,在图神经网络因其具有能够充分挖掘用项目的特征信息特点,因此可以通过构建用户-用户图、项目-项目图以及用户-项目图等多个复杂图,进而利用图卷积神经网络技术学习到用户、项目的有效关联信息,并且与评分数据有机融合到统一模型,能对推荐性能做进一步提升。
参考文献(略)


上一篇:基于有限重尾分布层次概率混合模型的非刚性点集配准思考
下一篇:硕士论文范文大全5例「计算机论文」