当前位置：和泉文库 > 电气与自动化 > 浏览文档

【机器学习】基于图游走的并行协同过滤推荐算法

文件格式：PDF，文件大小：4.52MB，售价：3.51元

文档详细内容（约9页）

第14卷第4期智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201806002 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20180629.1153.004html 基于图游走的并行协同过滤推荐算法顾军华2，谢志坚2，武君艳2，许馨匀2，张素琪 (1.河北工业大学人工智能与数据科学学院，天津300401；2.河北工业大学河北省大数据计算重点实验室，天津300401：3.天津商业大学信息工程学院，天津300134) 摘要：针对目前协同过滤推荐算法存在的数据稀疏性问题和可扩展性问题，本文进行了相关研究。针对稀疏性问题，在传统的皮尔逊相关相似度中引入交占比系数计算用户间直接相似度，该方法缓解了用户间共同评分项的占比问题：提出一种基于图游走的间接相似度计算方法，该方法根据用户间的直接相似度建立用户网络图，在用户网络图上通过游走计算用户间的间接相似度，并进行推荐。在Spak平台上实现本文方法的并行化，缓解了数据规模增加带来的可扩展性问题。实验结果表明：本文提出的算法在不同数据集上均取得了良好效果，有效地提高了推荐准确度，并且在分布式环境下具有良好的可扩展性。关键词：协同过滤：推荐；用户网络图；游走：相似度；间接相似度：并行；Spak平台中图分类号：TP391 文献标志码：A文章编号：1673-4785(201904-0743-09 中文引用格式：顾军华，谢志坚，武君艳，等.基于图游走的并行协同过滤推荐算法.智能系统学报，2019,14(4)：743-751. 英文引用格式：GU Junhua,XIE Zhijian,.VU Junyan,etal.Parallel collaborative filtering recommendation algorithm based on graph walkJ].CAAI transactions on intelligent systems,2019,14(4):743-751. Parallel collaborative filtering recommendation algorithm based on graph walk GU Junhua,XIE Zhijian,WU Junyan,XU Xinyun,ZHANG Suqi' (1.School of Artificial Intelligence,Hebei University of Technology,Tianjin 300401,China;2.Hebei Province Key Laboratory of Big Data Computing,Tianjin 300401,China;3.School of Information Engineering,Tianjin University of Commerce,Tianjin 300134,China) Abstract:This study aims to solve the problem of data sparsity and scalability of collaborative filtering recommenda- tion algorithms.For the sparseness problem,the traditional Pearson correlation similarity is introduced to calculate the direct similarity between the users using the cross-ratio coefficients.This method alleviates the proportion of common scoring items among users.An indirect similarity calculation method based on graph walk is proposed in the paper.This method builds a user network map based on the direct similarity between users,calculates the indirect similarity between users by walking on the user network map,and makes recommendations.The parallelization of this method on the Spark platform mitigates the scalability problem caused by increase of the data size.Experimental results on Movielens data- set and IPTV dataset show that the proposed algorithm achieves good results on different datasets,effectively improves the recommendation accuracy rate,and has good scalability in a distributed environment. Keywords:collaborative filtering;recommendation;user network map;walk;similarity;indirect similarity,parallel; Spark platform 近年来随着互联网科技的发展，大数据在促如何快速从海量数据中获取有价值的信息成为当进社会进步的同时，也带来了“信息过载”问题。前大数据发展的关键性问题。为满足人们在大收稿日期：2018-06-01.网络出版日期：2018-07-02. 数据中快速获取有价值信息的需求，推荐系统应基金项目：河北省科技计划项目(17210305D:天津市科技计划项目(I6 ZXHLSF0023):天津市自然科学基金项目运而生。推荐系统的目标是根据用户的个性化需 (15 JCONJC00600). 通信作者：张素琪.E-mail:zhangsuqie(@163.com. 求将最符合用户喜好的信息挑选出来并推荐给用

DOI: 10.11992/tis.201806002 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180629.1153.004.html 基于图游走的并行协同过滤推荐算法顾军华1,2，谢志坚1,2，武君艳1,2，许馨匀1,2，张素琪3 （1. 河北工业大学人工智能与数据科学学院，天津 300401; 2. 河北工业大学河北省大数据计算重点实验室，天津 300401; 3. 天津商业大学信息工程学院，天津 300134）摘要：针对目前协同过滤推荐算法存在的数据稀疏性问题和可扩展性问题，本文进行了相关研究。针对稀疏性问题，在传统的皮尔逊相关相似度中引入交占比系数计算用户间直接相似度，该方法缓解了用户间共同评分项的占比问题；提出一种基于图游走的间接相似度计算方法，该方法根据用户间的直接相似度建立用户网络图，在用户网络图上通过游走计算用户间的间接相似度，并进行推荐。在 Spark 平台上实现本文方法的并行化，缓解了数据规模增加带来的可扩展性问题。实验结果表明：本文提出的算法在不同数据集上均取得了良好效果，有效地提高了推荐准确度，并且在分布式环境下具有良好的可扩展性。关键词：协同过滤；推荐；用户网络图；游走；相似度；间接相似度；并行；Spark 平台中图分类号：TP391 文献标志码：A 文章编号：1673−4785(2019)04−0743−09 中文引用格式：顾军华, 谢志坚, 武君艳, 等. 基于图游走的并行协同过滤推荐算法 [J]. 智能系统学报, 2019, 14(4): 743–751. 英文引用格式：GU Junhua, XIE Zhijian, WU Junyan, et al. Parallel collaborative filtering recommendation algorithm based on graph walk[J]. CAAI transactions on intelligent systems, 2019, 14(4): 743–751. Parallel collaborative filtering recommendation algorithm based on graph walk GU Junhua1,2 ，XIE Zhijian1,2 ，WU Junyan1,2 ，XU Xinyun1,2 ，ZHANG Suqi3 (1. School of Artificial Intelligence, Hebei University of Technology, Tianjin 300401, China; 2. Hebei Province Key Laboratory of Big Data Computing, Tianjin 300401, China; 3. School of Information Engineering, Tianjin University of Commerce, Tianjin 300134, China) Abstract: This study aims to solve the problem of data sparsity and scalability of collaborative filtering recommendation algorithms. For the sparseness problem, the traditional Pearson correlation similarity is introduced to calculate the direct similarity between the users using the cross-ratio coefficients. This method alleviates the proportion of common scoring items among users. An indirect similarity calculation method based on graph walk is proposed in the paper. This method builds a user network map based on the direct similarity between users, calculates the indirect similarity between users by walking on the user network map, and makes recommendations. The parallelization of this method on the Spark platform mitigates the scalability problem caused by increase of the data size. Experimental results on Movielens dataset and IPTV dataset show that the proposed algorithm achieves good results on different datasets, effectively improves the recommendation accuracy rate, and has good scalability in a distributed environment. Keywords: collaborative filtering; recommendation; user network map; walk; similarity; indirect similarity; parallel; Spark platform 近年来随着互联网科技的发展，大数据在促进社会进步的同时，也带来了“信息过载”问题。如何快速从海量数据中获取有价值的信息成为当前大数据发展的关键性问题[1]。为满足人们在大数据中快速获取有价值信息的需求，推荐系统应运而生。推荐系统的目标是根据用户的个性化需求将最符合用户喜好的信息挑选出来并推荐给用收稿日期：2018−06−01. 网络出版日期：2018−07−02. 基金项目：河北省科技计划项目 (17210305D)；天津市科技计划项目 (16ZXHLSF0023)；天津市自然科学基金项目 (15JCQNJC00600). 通信作者：张素琪. E-mail：zhangsuqie@163.com. 第 14 卷第 4 期智能系统学报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019

·744· 智能系统学报第14卷户，以减轻用户的选择负担。协同过滤推荐算法荐算法的流程：1)根据评分矩阵R计算用户的相是一种目前应用最广泛的推荐算法，可以在用似度；2)计算目标用户的近邻用户集合；3)根据户没有明确提出自己需求的情况下，根据用户的近邻用户的评分预测目标用户对未评分项目的评行为对用户进行推荐。但由于大数据环境下用户分，从而生成推荐列表。和项目的数量不断增长，协同过滤推荐算法面临 1.2用户相似度着严重的数据稀疏性和可扩展性问题。用户相似度指用户与用户之间行为中表现出针对稀疏性问题，许多学者从不同角度进行的相似程度，皮尔逊相关相似度是一种常用的计了相关研究。SUN等刊采用聚类和时间影响因子算相似度的方法，反映了两个用户的偏好信息的矩阵来监测用户兴趣漂移程度，更准确的预测项线性相关程度。用户。和用户的皮尔逊相关目的评分。彭宏伟等提出一种基于矩阵分解的相似度计算公式2如下：上下文感知POI推荐模型，有效地缓解稀疏性问 ∑(a-ia)(rbi-i) SESab 题。WU等将异构信息网络建模为张量，并提出 sim(a,b)= (1) 两种随机梯度下降方法同时进行分解。MA等可 Va-历√及m- 提出了一种局部概率矩阵分解的方法，降低稀疏式中：sb为用户“和用户4。共同评分项目的集性的同时有效地缓解了每个局部模型的过拟合问合；ra为用户w。对项目s的评分；ia为用户wn对题。以上的方法均通过缓解数据稀疏性问题来提集合sb中项目评分的平均值。sim(a,b)的值域为高推荐的准确度。 [-1,1,sim(a,b)越大，表示两个用户的相似度越高。针对协同过滤推荐算法在处理大规模数据所 1.3近邻用户遇到的可扩展性问题，许多学者在并行方法上进近邻用户表示与目标用户偏好信息最相似的行了相关研究。杨志文、LUF、KUPISZ0等一组用户，可以通过式()计算用户的相似度，然将协同过滤推荐算法部署在Hadoop和Spark并后计算目标用户的近邻用户。目标用户的多个近行平台上，取得了良好的执行效率。邻用户组成目标用户的近邻用户集合，常用的计本文针对协同过滤推荐算法的数据稀疏性问算近邻用户集合的方法分为两类：基于数量的近题和可扩展性问题进行研究。针对稀疏性问题，邻用户集合和基于阈值的近邻用户集合。在皮尔逊相关相似度的基础上引入交占比系数来基于阈值的近邻用户集合包含以目标用户为计算用户的直接相似度，提出了一种基于图游走中心，与目标用户的相似度大于Value的用户。的协同过滤推荐算法(GWCF),使用图游走的方基于数量的近邻用户集合包含与目标相似度最大法计算用户的间接相似度，然后根据直接相似度的TopK个近邻用户。和间接相似度重建用户的相似度矩阵，最后进行 1.4个性化推荐推荐。在Movielens-100k数据集和IPTV 首先计算目标用户的近邻用户集合，然后对数据集上实验，验证GWCF在提高推荐准确度目标用户进行推荐。目标用户u对未评分项目s 上的有效性。针对可扩展性问题，在Spark平台预测评分的计算公式如式(2)，最后将预测评上实现GWCF算法，并使用Movielens-lM和分最大的K个项目推荐给目标用户。 Movielens-l0ok数据集进行实验，验证GWCF算 ∑sim(a,b)x(r-ia) 法的可扩展性。 (2) ∑sim(a,b) 1相关工作式中：。表示用户w已评项目的平均评分；表示用户已评项目的平均评分；N表示用户w 1.1问题定义的近邻用户集合；sim(a,b)表示目标用户u。与近基于近邻的协同过滤问题可以描述为：已邻用户，的相似度。知用户集合表示为U={,2,…,a,…,…,}, 项目集合表示为S={s,2,…,5,…,5…3n,用户. 2改进的皮尔逊相关相似度广1m r21 T22 皮尔逊相关相似度计算方法如式(1)，仅仅考项目评分矩阵R= 表示用虑了用户的共同评分项，而忽视了共同评分项目 Tnlr2… 与每个用户所有评分项的比例关系。这会导致如户。对项目s,的评分。基于近邻的协同过滤推果两个用户仅有极少数共同评分项目，并且两个

户，以减轻用户的选择负担。协同过滤推荐算法是一种目前应用最广泛的推荐算法[2] ，可以在用户没有明确提出自己需求的情况下，根据用户的行为对用户进行推荐。但由于大数据环境下用户和项目的数量不断增长，协同过滤推荐算法面临着严重的数据稀疏性和可扩展性问题[3]。针对稀疏性问题，许多学者从不同角度进行了相关研究。SUN 等 [4] 采用聚类和时间影响因子矩阵来监测用户兴趣漂移程度，更准确的预测项目的评分。彭宏伟等[5] 提出一种基于矩阵分解的上下文感知 POI推荐模型，有效地缓解稀疏性问题。WU 等 [6]将异构信息网络建模为张量，并提出两种随机梯度下降方法同时进行分解。MA 等 [7] 提出了一种局部概率矩阵分解的方法，降低稀疏性的同时有效地缓解了每个局部模型的过拟合问题。以上的方法均通过缓解数据稀疏性问题来提高推荐的准确度。针对协同过滤推荐算法在处理大规模数据所遇到的可扩展性问题，许多学者在并行方法上进行了相关研究。杨志文[8] 、LU F[9] 、KUPISZ[10] 等将协同过滤推荐算法部署在 Hadoop 和 Spark 并行平台上，取得了良好的执行效率。本文针对协同过滤推荐算法的数据稀疏性问题和可扩展性问题进行研究。针对稀疏性问题，在皮尔逊相关相似度的基础上引入交占比系数来计算用户的直接相似度，提出了一种基于图游走的协同过滤推荐算法 (GW_CF)，使用图游走的方法计算用户的间接相似度，然后根据直接相似度和间接相似度重建用户的相似度矩阵，最后进行推荐。在 Movielens-100 k 数据集和 IPTV 数据集上实验，验证 GW_CF 在提高推荐准确度上的有效性。针对可扩展性问题，在 Spark 平台上实现 GW_CF 算法，并使用 Movielens-1M 和 Movielens-100k 数据集进行实验，验证 GW_CF 算法的可扩展性。 1 相关工作 1.1 问题定义 U = {u1,u2,··· ,ua,···ub,··· ,un} S = { s1,s2,··· ,si ,··· ,sj ,···sm } R =   r11 r12 ··· r1m r21 r22 ··· r2m . . . . . . . . . rn1 rn2 ··· rnm   rai ua si 基于近邻的协同过滤问题可以描述为[11] ：已知用户集合表示为，项目集合表示为，用户- 项目评分矩阵，表示用户对项目的评分。基于近邻的协同过滤推荐算法的流程：1) 根据评分矩阵 R 计算用户的相似度；2) 计算目标用户的近邻用户集合；3) 根据近邻用户的评分预测目标用户对未评分项目的评分，从而生成推荐列表。 1.2 用户相似度 ua ub 用户相似度指用户与用户之间行为中表现出的相似程度，皮尔逊相关相似度是一种常用的计算相似度的方法，反映了两个用户的偏好信息的线性相关程度。用户和用户的皮尔逊相关相似度计算公式[12-13] 如下： sim(a,b) = ∑ si∈sab (rai −r¯a) (rbi −r¯b) √ ∑ si∈sab (rai −r¯a) √ ∑ si∈sab (rbi −r¯b) (1) sab ua ub rai ua si r¯a ua sab sim(a,b) [−1,1] sim(a,b) 式中：为用户和用户共同评分项目的集合；为用户对项目的评分；为用户对集合中项目评分的平均值。的值域为，越大，表示两个用户的相似度越高。 1.3 近邻用户近邻用户表示与目标用户偏好信息最相似的一组用户，可以通过式 (1) 计算用户的相似度，然后计算目标用户的近邻用户。目标用户的多个近邻用户组成目标用户的近邻用户集合，常用的计算近邻用户集合的方法分为两类：基于数量的近邻用户集合和基于阈值的近邻用户集合。基于阈值的近邻用户集合包含以目标用户为中心，与目标用户的相似度大于 Value 的用户。基于数量的近邻用户集合包含与目标相似度最大的 Top-K 个近邻用户。 1.4 个性化推荐 ua si 首先计算目标用户的近邻用户集合，然后对目标用户进行推荐。目标用户对未评分项目预测评分的计算公式[14] 如式（2），最后将预测评分最大的 K 个项目推荐给目标用户。 rai = r¯a + ∑ ub∈Nua sim(a,b)×(rbi −r¯b) ∑ ub∈Nua sim(a,b) (2) r¯a ua r¯b ub Nua ua sim(a,b) ua ub 式中：表示用户已评项目的平均评分；表示用户已评项目的平均评分；表示用户的近邻用户集合；表示目标用户与近邻用户的相似度。 2 改进的皮尔逊相关相似度皮尔逊相关相似度计算方法如式 (1)，仅仅考虑了用户的共同评分项，而忽视了共同评分项目与每个用户所有评分项的比例关系。这会导致如果两个用户仅有极少数共同评分项目，并且两个 ·744· 智能系统学报第 14 卷

第4期顾军华，等：基于图游走的并行协同过滤推荐算法 ·745· 用户对共同评分项目的评分极度相似，使用皮尔 (3)计算用户山和用户的相似度，由于用户4 逊相关相似度计算得到的用户的相似度，远远大和用户没有共同评分项，所以sim(1,3)=0。但于用户的真实相似度，降低了推荐的准确度。例是用户山和2拥有共同评分项目s4和55，那么如，用户w曾对200个项目进行了评分，用户 sim(1,2)>0,同理sim(2,3)>0。由于相似性具有对300个项目进行了评分，两个用户仅拥有10个传递性，因此用户山，和可以通过共同的相似用共同评分项目，且两个用户对每个共同评分项目户2建立间接相似度，使得sim(1,3)>0。如果两的评分均相同。使用传统皮尔逊相关相似度计算个用户没有共同评分项目，但间接相似度大于0 两者的相似度为1（两个用户完全相似）。但实际称这两个用户为间接近邻用户。在数据稀疏时，上，除了10个共同评分项目以外，用户。和用户为用户寻找间接近邻用户能够有效地提高推荐的 4,还各自拥有大量的非共同评分项目，两个用户准确度。本文提出了基于图游走的方法，首先根的喜好并不完全相同，利用皮尔逊相关相似度得据用户的直接相似度矩阵建立用户网络图，其次到的结果远远大于两个用户的真实相似度。针对在用户网络图上进行游走计算间接相似度，然后这个问题，本文在皮尔逊相关相似度基础上，引根据间接相似度和直接相似度重建用户的相似度入交占比系数来缓解共同评分项占比的问题，交矩阵，最后进行推荐。占比反映了两个用户的共同评分项在两个用户评表1用户评分示例表分中的占比，加入交占比系数的皮尔逊相关相似 Table 1 User rating 度计算公式如下：用户 S2 S3 S4 S5 S6 S7 S8 ∑(Tai-ia)(i-i) 4 2351 4 sim(a,b)= 2×l小sbl (3) Isal+I56l 3235 3 式中：sbl表示用户W。和用户山，共同评分项目的个数；s.表示用户w的评分项目个数；sl表示用用户4 用户助户w的评分项个数；其他变量的含义和式(1) 相同。 5im(1,2=0.8 表1为用户评分示例，山1、和出表示3个用户，51,52…，58表示8个项目，表中的值表示用户对项目的评分，表中的空值（一）表示该用户未曾对该项目评分。根据式(1)计算用户山和用户2 sim(1,3=02 sim(2,3=0.7 的相似度，山和西2的共同评分项集合 6 s2={s3,S4,s,山1和出对s12的评分均为[2,3,5，得用户山到sim(1,2)=1,显然这并不能准确的反映用户和用户2的相似程度。使用加入交占比的式 (3)计算用户4和用户的相似度，s2l=3, 图1间接相似度关系图 lsl=6,ls2=5,得到sim(1,2)≈0.545，显然0.545更 Fig.1 Indirect similarity diagram 符合用户山，和用户山的真实相似度。 3.1构建用户网络图使用用户网络图来说明用户间的相似关基于图游走的协同过滤推荐算法 (GW CF) 系，从目标用户开始游走后停留在某个用户的概率越高意味着它与目标用户更相似。为了建立用相似度计算是协同过滤推荐算法的关键部户网络图，首先使用式(3)计算用户间的直接相分，得到用户相似度之后可以确定用户的近邻用似度，然后根据直接相似度建立用户近邻矩阵。户集合。但以往计算用户的相似度时只考虑用户为每个用户选择T个直接近邻用户，其他非T用的直接相似相似度，这样将会遗失目标用户的间户的相似度置0，得到的近邻矩阵如式(4)所示：接近邻用户s-1。例如图1所示，山1、和山表示 su11su12· SUim 3个用户，51,52，…表示用户41的评分项目， SU21 SU2m SU= (4) 54,5,…5g表示用户的评分项目，56,57，…，S0表示用户4的评分项目。sim(1,2)、sim(2,3)、 sunl Su2· Sun sim(1,3)表示用户41、山2和3的相似度。依据式式中：对每个用户建立T近邻集合N;如果用

ua ub ua ub 用户对共同评分项目的评分极度相似，使用皮尔逊相关相似度计算得到的用户的相似度，远远大于用户的真实相似度，降低了推荐的准确度。例如，用户曾对 200 个项目进行了评分，用户对 300 个项目进行了评分，两个用户仅拥有 10 个共同评分项目，且两个用户对每个共同评分项目的评分均相同。使用传统皮尔逊相关相似度计算两者的相似度为 1(两个用户完全相似)。但实际上，除了 10 个共同评分项目以外，用户和用户还各自拥有大量的非共同评分项目，两个用户的喜好并不完全相同，利用皮尔逊相关相似度得到的结果远远大于两个用户的真实相似度。针对这个问题，本文在皮尔逊相关相似度基础上，引入交占比系数来缓解共同评分项占比的问题，交占比反映了两个用户的共同评分项在两个用户评分中的占比，加入交占比系数的皮尔逊相关相似度计算公式如下： sim(a,b) = 2×|sab| |sa|+|sb| × ∑ si∈sab (rai −r¯a) (rbi −r¯b) √ ∑ si∈sab (rai −r¯a) √ ∑ si∈sab (rbi −r¯b) (3) |sab| ua ub |sa| ua |sb| ub 式中：表示用户和用户共同评分项目的个数；表示用户的评分项目个数；表示用户的评分项个数；其他变量的含义和式 (1) 相同。 u1 u2 u3 s1,s2 ··· ,s8 u1 u2 u1 u2 s12 = {s3,s4,s5} u1 u2 s12 [2,3,5] sim(1,2) = 1 u1 u2 u1 u2 |s12| = 3 |s1| = 6 |s2| = 5 sim(1,2) ≈ 0.545 0.545 u1 u2 表 1 为用户评分示例，、和表示 3 个用户，表示 8 个项目，表中的值表示用户对项目的评分，表中的空值 (—) 表示该用户未曾对该项目评分。根据式 (1) 计算用户和用户的相似度，和的共同评分项集合，和对的评分均为，得到，显然这并不能准确的反映用户和用户的相似程度。使用加入交占比的式 ( 3 ) 计算用户和用户的相似度，，，，得到，显然更符合用户和用户的真实相似度。 3 基于图游走的协同过滤推荐算法 (GW_CF) u1 u2 u3 s1,s2,··· ,s5 u1 s4,s5,···s8 u2 s6,s7,··· ,s10 u3 sim(1,2) sim(2,3) sim(1,3) u1 u2 u3 相似度计算是协同过滤推荐算法的关键部分，得到用户相似度之后可以确定用户的近邻用户集合。但以往计算用户的相似度时只考虑用户的直接相似相似度，这样将会遗失目标用户的间接近邻用户[15-16]。例如图 1 所示，、和表示 3 个用户，表示用户的评分项目，表示用户的评分项目，表示用户的评分项目。、、表示用户、和的相似度。依据式 u1 u3 u1 u3 sim(1,3) = 0 u1 u2 s4 s5 sim(1,2) > 0 sim(2,3) > 0 u1 u3 u2 sim(1,3) > 0 (3) 计算用户和用户的相似度，由于用户和用户没有共同评分项，所以。但是用户和拥有共同评分项目和，那么，同理。由于相似性具有传递性，因此用户和可以通过共同的相似用户建立间接相似度，使得。如果两个用户没有共同评分项目，但间接相似度大于 0，称这两个用户为间接近邻用户。在数据稀疏时，为用户寻找间接近邻用户能够有效地提高推荐的准确度。本文提出了基于图游走的方法，首先根据用户的直接相似度矩阵建立用户网络图，其次在用户网络图上进行游走计算间接相似度，然后根据间接相似度和直接相似度重建用户的相似度矩阵，最后进行推荐。表 1 用户评分示例表 Table 1 User rating 用户 s1 s2 s3 s4 s5 s6 s7 s8 u1 4 — 2 3 5 1 — 4 u2 — 3 2 3 5 — 2 — u3 — 3 4 3 — 1 — 4 s1 s2 s4 s5 s3 s4 s5 s6 用户u1 用户u2 s7 s8 用户u3 s7 s6 s8 s10 s9 sim (1,2)=0.8 sim (1,3)=0? sim (2,3)=0.7 图 1 间接相似度关系图 Fig. 1 Indirect similarity diagram 3.1 构建用户网络图使用用户网络图来说明用户间的相似关系,从目标用户开始游走后停留在某个用户的概率越高意味着它与目标用户更相似。为了建立用户网络图，首先使用式 (3) 计算用户间的直接相似度，然后根据直接相似度建立用户近邻矩阵。为每个用户选择 T 个直接近邻用户，其他非 T 用户的相似度置 0，得到的近邻矩阵如式 (4) 所示： SU =   su11 su12 ··· su1n su21 su22 ··· su2n . . . . . . . . . sun1 sun2 ··· sunn   (4) 式中：对每个用户 ua 建立 T 近邻集合 Nua；如果用第 4 期顾军华，等：基于图游走的并行协同过滤推荐算法 ·745·

·746· 智能系统学报第14卷户不是用户a的T近邻用户，则sub=0;若用户和用户的相对相似程度。不考虑用户和户wb是用户wa的T近邻用户，则sub=sim(a,b)。它本身的相似度，因此令r=a=0。r越大，表示用在游走过程中不考虑用户和自身的相似度，所以户4。和目标用户4，的间接相似度越高。令sua=0。然后对矩阵SU按列进行归一化，得到矩阵 SU°，以矩阵SU作为邻接矩阵建立用户网络图。矩阵SU中的SU表示从当前用户节点。下一 D 步游走到用户节点4的概率。 3.2基于用户网络图游走图2非强连通用户网络示例图 Fig.2 Non-strong connected user network 用向量=[…]中表示第k次游走 3.3 重建相似度矩阵之后停留在节点的概率，向量su。=[su1… sub…sum]中sub=SU,则向量+1=su×()T为向量，反映了各个用户与目标用户的相似程 k+1次游走后停留在节点u的概率。整个用户网度相对大小，游走过程中的多次累加导致过络图的游走过程公式如下：大，进行推荐之前需要将向量r映射到直接相似度同一个数量级上，因此需要重建相似度矩阵。 ()"=sUx() (5) 集合N={u∈Nsub≠O}表示直接近邻集式中：SU为用户网络图的邻接矩阵：为第k次合N中和目标用户相似度大于0的用户集合。游走后停留在各个节点的概率向量；= 利用该集合中用户与目标用户的直接相似度和向。的。其中b=口表示从用户节点以开始游走。量，对应元素的映射关系，将向量，转化为目标在用户网络图中存在着与其他用户的相似度用户和其他用户的间接相似度向量，重建的相似都很低甚至可以忽略不计的特殊用户节点。在用度计算公式为：户网络图中此类节点只有入度，没有出度，如图2 SU 中节点D,此时由于图中D节点只有入度，没有 sim(a,b)= N' Xra,6生N (8) 出度，用户网络图演变为非强连通图，以式（⑤）的 subh,eN”u 方法游走到图中节点D时将无法跳转到其他节式中：sim(a,b)表示目标用户wa和用户的重建点。整个用户网络图的游走最终停留在类似节相似度；sub表示目标用户。和用户，的直接相点D的死节点，无法求得用户的间接相似度，因似度；W表示集合N中用户个数。此对式（⑤）进行变形如下： 3.4生成推荐结果 ()'=pxSU×()+(1-p)x (6) 以每个用户顶点为起点进行游走查找其间接式中：p表示n次游走后在当前节点继续游走的相似用户，得到重建的用户相似度矩阵，进一步概率；(1-p)表示随机远程跳转到目标节点的概得到目标用户的近邻用户集合。然后利用式率。p的大小与式(6)的收敛速度成反比，p太大 (2)对目标用户的未评分项目进行评分预测，并将会导致收敛速度太慢从而影响算法的性能，p如评分最高的Top-K个项目推荐给目标用户。果太小则无法反映游走的效果，因此令p=0.85。向量t=…]表示远程跳转的目标节点， 4基于图游走的并行协同过滤推荐 6=1,b=a 算法 0,b≠a° 当式(6)经过有限次迭代后，向量收敛。 4.1 Spark介绍在理想情况下，当k趋于无穷大时，+1==r, Spark是基于内存的分布式并行计算平台，那么式(6可以表示为rr=p×SU×rF+(1-p)×tF。它拥有Hadoop平台和MapReduce框架的全部优对式(6)进一步变形得到式(7)，在从不同用户顶点，并且Spark运算的中间结果能存储在内存中，点开始游走查找它的间接相似用户时，(1-p)× 提高了并行计算的速度，因此Spark更适合进行 (I-p×SU)1只需要计算一次。相对于式(6)的多数据挖掘与机器学习等需要迭代处理算法的实次迭代，式（⑦大大降低了计算的复杂度。现9：2。Spark集群启动时包括一个Master节点 r=(1-p)×(I-p×S)'×t (7) 和若干个Worker节点，其中Master节点主要负责式中：向量r=[n…%…rJ中rb表示从用户a 集群资源的管理，Worker节点主要负责数据的计开始游走最终停留在用户山，的概率；。被视作用算。当在Master节点使用spark-submit命令提交

ub ua suab = 0 ub ua suab = sim(a,b) suaa = 0 户不是用户的 T 近邻用户，则；若用户是用户的 T 近邻用户，则。在游走过程中不考虑用户和自身的相似度，所以令。 SU SU∗ SU∗ SU∗ SU∗ ab ub ua 然后对矩阵按列进行归一化，得到矩阵，以矩阵作为邻接矩阵建立用户网络图。矩阵中的表示从当前用户节点下一步游走到用户节点的概率。 3.2 基于用户网络图游走 r k = [ r k 1 r k 2 ...r k b ...r k n ] r k b ub sua = [sua1 ··· suab ··· suan] suab = SU∗ ab r k+1 a =sua × ( r k )T ua 用向量中表示第 k 次游走之后停留在节点的概率，向量中，则向量为 k+1 次游走后停留在节点的概率。整个用户网络图的游走过程公式如下： ( r k+1 )T = SU∗ × ( r k )T (5) SU∗ r k k r 0 b = { 1,b = a 0,b , a b = a ua 式中：为用户网络图的邻接矩阵；为第次游走后停留在各个节点的概率向量；，其中表示从用户节点开始游走。在用户网络图中存在着与其他用户的相似度都很低甚至可以忽略不计的特殊用户节点。在用户网络图中此类节点只有入度，没有出度，如图 2 中节点 D，此时由于图中 D 节点只有入度，没有出度，用户网络图演变为非强连通图，以式 (5) 的方法游走到图中节点 D 时将无法跳转到其他节点。整个用户网络图的游走最终停留在类似节点 D 的死节点，无法求得用户的间接相似度，因此对式 (5) 进行变形如下： ( r k+1 )T = p×SU∗ × ( r k )T +(1− p)× t T (6) p n (1− p) p p p p = 0.85 t = [t1 t2 ···tn] tb = { 1,b = a 0,b , a 式中：表示次游走后在当前节点继续游走的概率；表示随机远程跳转到目标节点的概率。的大小与式 (6) 的收敛速度成反比，太大会导致收敛速度太慢从而影响算法的性能，如果太小则无法反映游走的效果，因此令。向量表示远程跳转的目标节点，。 r k k r k+1 = r k = r r T = p×SU∗ × r T +(1− p )× t T (1− p)× (I− p×SU∗ ) −1 当式 (6) 经过有限次迭代后，向量收敛[17-18]。在理想情况下，当趋于无穷大时，，那么式 (6) 可以表示为。对式 (6) 进一步变形得到式 (7)，在从不同用户顶点开始游走查找它的间接相似用户时，只需要计算一次。相对于式 (6) 的多次迭代，式 (7) 大大降低了计算的复杂度。 r T = (1− p)×(I− p×S ∗ ) −1 × t T (7) r = [r1 ··· rb ··· rn] rb ua ub rb 式中：向量中表示从用户开始游走最终停留在用户的概率；被视作用 ua ub rb=a= 0 rb ua ub 户和用户的相对相似程度。不考虑用户和它本身的相似度，因此令。越大，表示用户和目标用户的间接相似度越高。 A B D C 图 2 非强连通用户网络示例图 Fig. 2 Non-strong connected user network 3.3 重建相似度矩阵 r rb 向量反映了各个用户与目标用户的相似程度相对大小，游走过程中的多次累加导致过大，进行推荐之前需要将向量 r 映射到直接相似度同一个数量级上，因此需要重建相似度矩阵。 N ′ ua = { ub|ub ∈ Nua suab , 0 } Nua r r 集合表示直接近邻集合中和目标用户相似度大于 0 的用户集合。利用该集合中用户与目标用户的直接相似度和向量对应元素的映射关系，将向量转化为目标用户和其他用户的间接相似度向量，重建的相似度计算公式为： sim(a,b) =    ∑ ub ∈N′ ua suak rk N′ ua ×ra suab ub ∈ N ′ ua , ub < N ′ ua (8) sim(a,b) ua ub suab ua ub N ′ ua N ′ ua 式中：表示目标用户和用户的重建相似度；表示目标用户和用户的直接相似度；表示集合中用户个数。 3.4 生成推荐结果以每个用户顶点为起点进行游走查找其间接相似用户，得到重建的用户相似度矩阵，进一步得到目标用户的近邻用户集合。然后利用式 (2) 对目标用户的未评分项目进行评分预测，并将评分最高的 Top-K 个项目推荐给目标用户。 4 基于图游走的并行协同过滤推荐算法 4.1 Spark 介绍 Spark 是基于内存的分布式并行计算平台[19] ，它拥有 Hadoop 平台和 MapReduce 框架的全部优点，并且 Spark 运算的中间结果能存储在内存中，提高了并行计算的速度，因此 Spark 更适合进行数据挖掘与机器学习等需要迭代处理算法的实现 [19-21]。Spark 集群启动时包括一个 Master 节点和若干个 Worker 节点，其中 Master 节点主要负责集群资源的管理，Worker 节点主要负责数据的计算。当在 Master 节点使用 spark-submit 命令提交 ·746· 智能系统学报第 14 卷

第4期顾军华，等：基于图游走的并行协同过滤推荐算法 ·747· 作业时，首先在本地客户端启动一个Driver进程；式中：rm表示用户w对项目的评分；下。表示用户 Driver进程会根据设置的参数向Master节点申请 “的评分均值。皮尔逊相关相似度公式可以变形为相应的集群资源，主要有Worker节点个数、每个 Worker节点上Executor的内存和CPU数量；Mas- sim(a,b)= .x (10) SEsd ter节点与Worker节点进行通信，通知Worker节因此，求用户ua和用户的相似度sim(a,b) 点启动Executor并向Driver进程注册；Driver进的过程转化为5步：1)对于用户4和用户，的共程与Worker节点连接起来，将需要执行的任务分配给集群中的各个Worker节点，Worker节点按同评分项s:∈sb,计算中间变量Qa和Qa;2)求用照任务分配从HDFS上读取数据并缓存到内存户。和用户6的Q乘积Qm×Q;3)计算中，Driver进程对各个Worker节点处理完的结果 ∑Qm×Q得到皮尔逊相关相似度；4)交占比系数进行收集和汇总。在Spark平台实现基于图游走得到用户的直接相似度；5)使用游走的方法求得的协同过滤算法能够有效地提高算法的时间用户的间接相似度并重建相似度。效率。 4.2相似性计算的并行化 4.3基于图游走的协同过滤算法并行化流程由于皮尔逊相关相似度计算公式较为复杂，基于图游走的协同过滤推荐算法在Spark平全局搜索较多，因此在实现本文方法并行化时引台上的并行化包括3部分，分别是读入数据创建入中间变量Q,Qm反映了用户。在项目s:上的 RDD、计算用户的相似度以及生成推荐列表，该相似度权重，计算公式如下：算法的并行化主要体现在计算用户相似度和生成 Cai=- (rai-Fa) (9) 推荐列表。基于图游走的并行协同过滤推荐算法示意图如图3所示。开始读人评分数据按用户划分不同分区分区1计算Q, 分区2：计算Q2 分区m1:计算O 分区x计算Q 1≤i≤m 1≤i≤m 1≤i≤m 1≤i≤m 分区1计算Q×Q 分区P:计算Q-w×Qm 1≤i≤m I≤i≤m 分区1：计算sim(1,2) 分区：计算sim(广l,) 直接相似度矩阵 userMatrixRDD 分区1：用户山，的间接分区r用户u的间接相似度向量r 相似度向量r。重建用户相似度矩阵 t 按用户划分不同分区分区1上计算u的分区m:计算u的近邻集合N(I) 近邻集合N(n) 分区1：计算4，的分区m:计算u的推荐列表推荐列表结柬图3基于图游走的并行协同过滤示意图 Fig.3 Parallel collaboration filtering based on graph walk schematic

作业时，首先在本地客户端启动一个 Driver 进程； Driver 进程会根据设置的参数向 Master 节点申请相应的集群资源，主要有 Worker 节点个数、每个 Worker 节点上 Executor 的内存和 CPU 数量；Master 节点与 Worker 节点进行通信，通知 Worker 节点启动 Executor 并向 Driver 进程注册；Driver 进程与 Worker 节点连接起来，将需要执行的任务分配给集群中的各个 Worker 节点，Worker 节点按照任务分配从 HDFS 上读取数据并缓存到内存中，Driver 进程对各个 Worker 节点处理完的结果进行收集和汇总。在 Spark 平台实现基于图游走的协同过滤算法能够有效地提高算法的时间效率。 4.2 相似性计算的并行化 Q Qai ua si 由于皮尔逊相关相似度计算公式较为复杂，全局搜索较多，因此在实现本文方法并行化时引入中间变量，反映了用户在项目上的相似度权重，计算公式如下： Qai = (rai −r¯a) √∑ a (rai −r¯a) (9) rai ua si r¯a ua 式中：表示用户对项目的评分；表示用户的评分均值。皮尔逊相关相似度公式可以变形为 sim(a,b) = 2×|sab| |sa|+|sb| × ∑ si∈sab Qai × Qbi (10) ua ub sim(a,b) ua ub si ∈ sab Qai Qbi ua ub Q Qai × Qbi ∑ si∈sabQai×Qbi 因此，求用户和用户的相似度的过程转化为 5 步：1）对于用户和用户的共同评分项，计算中间变量和；2）求用户和用户的乘积； 3 ）计算得到皮尔逊相关相似度；4）交占比系数得到用户的直接相似度；5）使用游走的方法求得用户的间接相似度并重建相似度。 4.3 基于图游走的协同过滤算法并行化流程基于图游走的协同过滤推荐算法在 Spark 平台上的并行化包括 3 部分，分别是读入数据创建 RDD、计算用户的相似度以及生成推荐列表，该算法的并行化主要体现在计算用户相似度和生成推荐列表。基于图游走的并行协同过滤推荐算法示意图如图 3 所示。开始按用户划分不同分区按用户划分不同分区重建用户相似度矩阵结束直接相似度矩阵 userMatrixRDD … … … … … … 读入评分数据分区1:计算Q1i 1≤i≤m 分区2:计算Q2i 1≤i≤m 分区n:计算Qni 1≤i≤m 分区n−1:计算Q(n−1)i 1≤i≤m 分区1:计算Q1i×Q2i 1≤i≤m 分区1:计算sim(1,2) 分区n 2 :计算Qa(n−1)i×Qni 1≤i≤m 分区n 2 :计算sim(n−1,n) 分区1:用户u1的间接相似度向量r1 分区n:用户un的间接相似度向量rn 分区1:计算u1的近邻集合N(1) 分区n:计算un的近邻集合N(n) 分区1：计算u1的推荐列表分区n:计算un的推荐列表图 3 基于图游走的并行协同过滤示意图 Fig. 3 Parallel collaboration filtering based on graph walk schematic 第 4 期顾军华，等：基于图游走的并行协同过滤推荐算法 ·747·

点击进入文档下载页（PDF格式）

共9页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录