结合用户聚类与改进相似性的协同过滤推荐算法探讨

论文价格:150元/篇 论文用途:硕士毕业论文 Master Thesis 编辑:vicky 点击次数:
论文字数:33636 论文编号:sb2021082321032837057 日期:2021-09-01 来源:硕博论文网
本论文的相关研究已经取得了阶段性成果,完成了预期的目标,并发表了两篇北大核心期刊论文以及申请一项专利。但由于协同过推荐算法的快速发展,该算法的创新越来越具有时代性、新颖性与多样性,且相应的推荐系统也会有更好的改进与发展,因此,仍有一些问题需要进行改善和研究。

第 1 章 绪论

1.1 研究背景及意义
1.1.1 研究背景
进入 21 世纪以来,由于计算机软硬件技术、通讯技术的发展,互联网已成为人们日常生活中不可缺失的重要工具。从图 1-1 中可见,从 2011 年至 2021 年,我国网民数量和网络普及率逐年增长,直至 2020 年 12 月,国内网民数量便已达到 9.89 亿人,其中,网购用户占比约 79%,人均每周上网时长约 26.2 个小时,互联网普及率已高达 70.4%[1]。
图 1-1 近 10 年中国网民数和互联网普及率
图 1-1 近 10 年中国网民数和互联网普及率
在拥有如此庞大的用户群体背景下,用户不再仅仅只是信息的生产者,更是信息的消费者。因此,这种新的互联网信息环境极大地带动了信息的“爆炸式”增长,丰富了人们的生活。然而,物极必反,这种“爆炸式”的数据增长模式无疑会降低用户对信息的使用效率,继而引发“信息过载”问题[2-3]。这一问题主要有以下两个方面的影响:
(1)从信息的消费者角度来看,尤其是针对互联网用户。在面临庞大的数据量时,他们往往难以快速地定位到自己合适的、有效的信息,因此,用户可能需要花费大量宝贵的时间与精力来寻找信息,这给用户带来了极大的困扰[4]。
(2)从信息的生产者角度来看,尤其是针对互联网服务提供商。在面临庞大的用户数据量时,往往难以快速地挖掘用户的兴趣偏好和行为习惯,进而无法精准地定位到用户的需求,这极大的降低了服务的质量与销售量。
................................

1.2 国内外研究状况
自从 20 世纪末推荐系统进入人们的视野后,由于其强大的信息过滤功能很快得到了国内外诸多研究者的关注,并逐渐发展成为一项独立的研究领域。1992 年 Goldberg 等人[8]最先提出了协同过滤算法,并将该算法应用在邮箱过滤系统中,帮助用户进行垃圾邮件的筛选和排除。1994 年明尼苏达大学的Resnick 等人[9]实现了一种推荐结果更具新颖性的新闻推荐系统 GroupLens,该系统能主动向用户推送其喜欢的文章;1995 年在 AAAI 春季会议上,Armstrong R等人[10]展示了 WebWatcher 导航系统,该系统能为用户提供具有个性化服务的Web 站点;1996 年在加州大学伯克利分校的协同过滤算法研讨会上,研究者们首次定义了推荐系统的概念,将其定义为一种信息过滤系统;2002 年亚马逊网站提出了基于项目的协同过滤推荐算法,为该网站提高了约 30%的销售量[11];2006 年奈飞公司斥资百万美金举行的“Netflix Prize”竞赛,进一步提高了研究者们对推荐技术的热情和关注度[12];2007 年 ACM 组织开始举办 RecSys 大会, 该会议是推荐系统领域中规模最大的专题会议[13];2010 年 Google 发布了具有优先级收件功能的邮箱产品,将用户可能感兴趣的邮件存放在专门的邮箱里,帮助用户节约了近6%的时间[14];2016年YouTube网站在推荐算法中引入深度神经网络,缩小了推荐范围,提高了推荐精度[15]。
相对于国外的研究状况而言,我国对于推荐算法的研究起步虽然较晚,但同样成果硕然。2004 年豆瓣阅读首次增加“和你口味最像的人”的功能,最早将推荐系统应用在了商业网站[16];2011 年电子科技大学与百分点公司组建了我国第一支专注研究推荐领域的科研团队,使得我国对于推荐技术的研究进入新时期[17];2013 年百度将个性化推荐技术应用在网站搜索服务上,推出了一款具有智能化、个性化推荐系统的搜索产品—百度推荐;2017 年,为了增加用户对平台广告的点击率,腾讯举行了社交广告算法竞赛,在该竞赛中大量关于推荐算法的优化算法被提出[4]。
.................................

第 2 章 相关理论概述

2.1 推荐系统概述
进入 21 世纪,由于互联网、大数据等信息技术的迅猛发展,电子商务也随之得到发展,获得了大量用户的认可与使用。可随着用户与商品规模的日益增多,信息过载的问题逐渐突显,为了能让用户在海量商品中方便、快捷地找到符合自身需求的商品,同时,电商能将用户需要的商品及时、准确地推送,在此需求下,推荐系统应运而生。
推荐系统是目前针对信息过载问题,实现个性化服务最有效的方式之一。其实质是一种信息过滤的手段,能够根据每位用户的历史评分、购买记录等行为,向用户推荐其可能感兴趣的商品[30]。当前推荐系统的应用场景多种多样,例如:新闻阅读、视频浏览、音乐播放和网络购物等。
推荐系统的构成主要包含三大模块:信息输入模块、算法推荐模块以及结果输出模块[31]。其中,信息输入模块主要是负责采集信息,比如对用户属性、行为记录、商品属性的采集;算法推荐模块是整个系统的核心部分,主要是负责对采集到的信息进行整合,构建推荐模型以及推荐结果的产生;输出模块主要是负责将推荐结果进行排序、过滤、解释,并向用户显示推荐列表。模型图如 2-1 所示。图 2-1 推荐系统模型示意图
图 2-1 推荐系统模型示意图
..................................

2.2 推荐算法概述
如果将推荐系统看作是一个骨架,那么推荐算法便是整个骨架的灵魂。作为推荐系统核心的推荐算法,很大程度上决定了整个系统的原理、推荐机制以及实际推荐效果。本节就基于内容、关联规则、协同过滤、混合的推荐算法进行具体地介绍,主要包括这四种算法各自的原理、优劣点以及适用场景。
2.2.1 基于内容的推荐算法
基于内容(Content Based, CB)的推荐算法,又称为基于信息过滤的推荐算法。CB 算法主要根据用户过去一段时间内喜好物品的特征,以此推断出用户的偏好,为用户推荐相似物品。该算法主要包含以下 3 个步骤[32]:
(1)对推荐系统中物品的特征(例如文本、项目标签等)进行抽调与记录。
(2)利用隐式(例如跟踪用户的历史行为记录)或者显式(例如问卷调查)的方式构建用户兴趣特征模型。
(3)将用户的喜好、兴趣特征与候选物品的特征进行匹配,将具有较高匹配度的物品推荐给用户。
该算法示例如图 2-2 所示:
图 2-2 CB 算法的示例图
图 2-2 CB 算法的示例图

........................................

第 3 章 基于用户聚类与改进评分相似度的协同过滤算法....................................17
3.1 引言...............................17
3.2 基于用户的协同过滤算法.................................17
第 4 章 结合改进用户信任与用户评分相似度的协同过滤算法............................35
4.1 引言.............................35
4.2 算法设计...............................36
结论..............................................47

第 4 章 结合改进用户信任与用户评分相似度的协同过滤算法

4.1 引言
随着网络的快速发展,网民们开始习惯于在社交自媒体平台上发表自己对某一事件的看法、对购买商品的评价等,通过这些行为,即使是远在千里之外的陌生人,也可以建立起相互之间的联系。和现实世界相同,网络世界上的社交同样可以让每个人根据自身的观点、行为和其他用户建立起信任关系,并通过这些信任关系进行人与人之间交往。
在个性化推荐领域中,对于信任关系的研究一直是国内外众多学者研究的热点。Massa P 等人[64]最早提出将用户信任引入到推荐系统中,拉开了用户信任在个性化推荐领域的序幕。Golbeck 等人[65]在信任网络中利用改进的 BFS 算法进行预测,并结合多数用户的信任路线来搜索相关用户的信任评级。Jamali 等人[66]考虑了用户信任具有可传递的性质,并结合 SVD 分解技术,实现了推荐。谷振鹏等人[67]提出了一种基于相似性填充和信任因子的算法,首先筛选出用户未评分项,其次利用分解技术降低评分矩阵的维度,然后利用用户信任动态地对未评分项进行填充,并根据填充后的评分矩阵计算相似度,最后进行推荐。王建芳等人[68]提出了一种结合奇异值分解与用户信任的算法,首先利用奇异值分解算法对用户评分矩阵进行降维,然后将余弦相似度进行改进并得到临时邻居集,最后将信任因子与相似度公式结合再获得最优邻居集,从而完成推荐。高茂庭等人[29]引入了社交网络中的用户信任关系,将传统的用户评分相似度与用户信任度进行融合,从而获得更加精确的用户相似性计算方式。
...........................

结论


目前个性化推荐技术在信息过载的时代背景下发挥了巨大的商业价值,尤其是在短视频、影视播放、电子商务领域更为突出。算法通过挖掘用户的历史行为、个人偏好等,主动为用户推荐其可能感兴趣的信息,这在数据过载的时代下能有效帮助用户解决信息需求,增强用户对网络平台的黏性与忠实度,提高信息的利用率,创造更大的商业价值。但庞大的网络信息量也导致了推荐技术面临着数据稀疏性、用户相似性计算不够精确等问题,降低了算法的推荐效果。因此许多研究者对存在的问题提出了改进。
本文在综合大量前人的研究基础上,针对传统协同过滤算法的数据稀疏性、用户相似性计算问题,结合了多种因素和技术对协同过滤算法进行改进,有效提高了推荐算法的预测效果。本文的主要研究成果如下:
(1)分析了在传统的协同过滤算法中,用户、商品规模过大导致的评分矩阵过于稀疏的问题,以及利用皮尔逊相关系数计算用户评分相似度存在的计算精度较差的问题,文章从用户属性聚类、时间因素、热门商品的惩罚三个角度对协同过滤算法改进,提出了一种基于用户聚类以及改进用户评分相似度的协同过滤算法。在公开的 MovieLens 数据集中进行实验对比,结果表明,将用户聚类与改进用户评分相似度相结合的协同过滤算法有效地改善了协同过滤算法的预测效果。
(2)提出了一种结合改进用户信任与用户评分相似度的协同过滤算法。该算法对传统的用户信任关系进行了改进,首先,通过引入用户评分可信度来缓解用户的评分习惯不同以及恶意评分对用户信任带来的影响;其次,通过引入用户的评分误差值来定义用户交互响应因子数,解决传统的直接信任度仅依赖共同评分项目集合的数量而导致的信任度计算不可靠的问题;最后,将改进的用户信任度与第三章提出的改进的用户评分相似度进行结合,并通过实验进行验证,改进的用户信任与改进的用户评分相似度相结合的协同过滤推荐算法能进一步改善了用户相似度的计算精度,提高了协同过滤算法的预测性能。
参考文献(略)