第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201805001 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180702.1311.002.html 知识图谱的推荐系统综述 常亮,张伟涛,古天龙,孙文平,宾辰忠 (桂林电子科技大学广西可信软件重点实验室,广西桂林541004) 摘要:如何为用户提供个性化推荐并提高推荐的准确度和用户满意度,是当前推荐系统研究面临的主要问 题。知识图谱的出现为推荐系统的改进提供了新的途径。本文研究了知识图谱近年来在推荐系统中的应用情 况,从基于本体的推荐生成、基于开放链接数据的推荐生成以及基于图嵌入的推荐生成3个方面对研究现状进 行了综述。在此基础上,提出了基于知识图谱的推荐系统总体框架,分析了其中涉及的关键技术,并对目前存 在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。 关键词:知识图谱:推荐系统;本体;开放链接数据库;图嵌入;网络表示学习:相似度:预测评分 中图分类号:TP301文献标志码:A文章编号:1673-4785(2019)02-0207-10 中文引用格式:常亮,张伟涛,古天龙,等.知识图谱的推荐系统综述.智能系统学报,2019,14(2):207-216, 英文引用格式:CHANG Liang,.ZHANG Weitao,.GU Tianlong,etal.Review of recommendation systems based on knowledge graphJ.CAAI transactions on intelligent systems,2019,14(2):207-216. Review of recommendation systems based on knowledge graph CHANG Liang,ZHANG Weitao,GU Tianlong,SUN Wenping,BIN Chenzhong (Guangxi Key Laboratory of Trusted Software,Guilin University of Electronic Technology,Guilin 541004,China) Abstract:In current research on recommendation systems,the provision of personalized recommendations to users and the improvement of the accuracy and user satisfaction of recommendations are main concerns.The emergence of know- ledge graphs provides a new way to improve recommendation systems.The applications of knowledge graphs to recom- mendation systems in recent years are summarized in this paper,and the current status of the research is investigated in detail from three aspects:ontology-based recommendation generation,recommendation generation based on linked open data,and recommendation generation based on graph embedding.On this basis,this paper proposes the general frame- work of recommendation systems based on knowledge graph,analyzes the key technologies involved,discusses the ex- isting key issues and difficulties,and indicates the further research work to be carried out. Keywords:knowledge graph;recommendation system;ontology;linked open data;graph embedding;network repres- entation learning:similarity:prediction score 移联动互网、人工智能等技术的迅速发展为 务。相对于传统搜索引擎来说,推荐系统可以兼 人们的工作生活带来了很多便利,但是同时也带 顾个性化需求和解决信息过载问题。推荐系统是 来了信息过载问题”。搜索引擎和推荐系统是解 信息过滤系统的一个子集,目的在于根据用户的 决信息过载的代表技术。传统的搜索引擎在本质 喜好、习惯、个性化需求以及商品的特性来预测 上来讲是帮助用户过滤和筛选信息,这种方式满 用户对商品的喜好,为用户推荐最合适的商品, 足了大多数人的需求,但没有提供个性化的服 帮助用户快速地做出决策,提高用户满意度。 推荐系统的价值在于能够提供尽量合适的选择或 收稿日期:2018-05-02.网络出版日期:2018-07-02. 基金项目:国家自然科学基金项目(61572146,U1501252,U1711263: 者是推荐而不需要用户明确提供他们所想要的内 广西创新驱动重大专项项目(AA17202024):广西自 然科学基金项目(2016 GXNSFDA380006). 容。随着大数据时代的到来,传统推荐系统在挖 通信作者:宾辰忠.E-mail:binchenzhong@guet.edu.cn 掘数据价值上存在的问题正在限制其性能发挥
DOI: 10.11992/tis.201805001 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180702.1311.002.html 知识图谱的推荐系统综述 常亮,张伟涛,古天龙,孙文平,宾辰忠 (桂林电子科技大学 广西可信软件重点实验室,广西 桂林 541004) 摘 要:如何为用户提供个性化推荐并提高推荐的准确度和用户满意度,是当前推荐系统研究面临的主要问 题。知识图谱的出现为推荐系统的改进提供了新的途径。本文研究了知识图谱近年来在推荐系统中的应用情 况,从基于本体的推荐生成、基于开放链接数据的推荐生成以及基于图嵌入的推荐生成 3 个方面对研究现状进 行了综述。在此基础上,提出了基于知识图谱的推荐系统总体框架,分析了其中涉及的关键技术,并对目前存 在的重点和难点问题进行了讨论,指出了下一步需要开展的研究工作。 关键词:知识图谱;推荐系统;本体;开放链接数据库;图嵌入;网络表示学习;相似度;预测评分 中图分类号:TP301 文献标志码:A 文章编号:1673−4785(2019)02−0207−10 中文引用格式:常亮, 张伟涛, 古天龙, 等. 知识图谱的推荐系统综述[J]. 智能系统学报, 2019, 14(2): 207–216. 英文引用格式:CHANG Liang, ZHANG Weitao, GU Tianlong, et al. Review of recommendation systems based on knowledge graph[J]. CAAI transactions on intelligent systems, 2019, 14(2): 207–216. Review of recommendation systems based on knowledge graph CHANG Liang,ZHANG Weitao,GU Tianlong,SUN Wenping,BIN Chenzhong (Guangxi Key Laboratory of Trusted Software, Guilin University of Electronic Technology, Guilin 541004, China) Abstract: In current research on recommendation systems, the provision of personalized recommendations to users and the improvement of the accuracy and user satisfaction of recommendations are main concerns. The emergence of knowledge graphs provides a new way to improve recommendation systems. The applications of knowledge graphs to recommendation systems in recent years are summarized in this paper, and the current status of the research is investigated in detail from three aspects: ontology-based recommendation generation, recommendation generation based on linked open data, and recommendation generation based on graph embedding. On this basis, this paper proposes the general framework of recommendation systems based on knowledge graph, analyzes the key technologies involved, discusses the existing key issues and difficulties, and indicates the further research work to be carried out. Keywords: knowledge graph; recommendation system; ontology; linked open data; graph embedding; network representation learning; similarity; prediction score 移联动互网、人工智能等技术的迅速发展为 人们的工作生活带来了很多便利,但是同时也带 来了信息过载问题[1]。搜索引擎和推荐系统是解 决信息过载的代表技术。传统的搜索引擎在本质 上来讲是帮助用户过滤和筛选信息,这种方式满 足了大多数人的需求,但没有提供个性化的服 务。相对于传统搜索引擎来说,推荐系统可以兼 顾个性化需求和解决信息过载问题。推荐系统是 信息过滤系统的一个子集,目的在于根据用户的 喜好、习惯、个性化需求以及商品的特性来预测 用户对商品的喜好,为用户推荐最合适的商品, 帮助用户快速地做出决策,提高用户满意度[2]。 推荐系统的价值在于能够提供尽量合适的选择或 者是推荐而不需要用户明确提供他们所想要的内 容。随着大数据时代的到来,传统推荐系统在挖 掘数据价值上存在的问题正在限制其性能发挥[3]。 收稿日期:2018−05−02. 网络出版日期:2018−07−02. 基金项目:国家自然科学基金项目 (61572146,U1501252,U1711263); 广西创新驱动重大专项项目 (AA17202024);广西自 然科学基金项目 (2016GXNSFDA380006). 通信作者:宾辰忠. E-mail: binchenzhong@guet.edu.cn. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
·208· 智能系统学报 第14卷 知识图谱的出现为大数据环境下的推荐系统设计 理带来了新的契机,而基于知识图谱的推荐系统 提供了一种有效途径。 也作为一个新的研究领域被人们所关注。 2012年5月17日谷歌正式提出了“知识图 知识图谱的提出最初是为了优化搜索引擎, 谱”这个术语。知识图谱旨在描述真实世界中 将数据组织成相互链接并且对于其中的每个实体 存在的各种实体或概念,以及他们之间的关联关 都富含属性标签,实体间存在多种关系,以此来 系。其中,每个实体或概念用一个全局唯一确定 实现搜索引擎的优化。在对其进行深人研究后, 的D来标识,每个属性-值对用来刻画实体的内 了解到知识图谱的应用不局限于搜索,在诸如智 在属性,而关系用来连接两个实体,刻画它们之 能问答、推荐系统以及金融诈骗领域均有涉猎”。 间的关联。知识图谱可以融合多种数据源丰富数 基于知识图谱的推荐系统主要是利用知识图 据语义信息,并且可以结合推理得到的隐含信息 谱对多源异构数据的整合性,可以对大数据环境 为用户提供服务。随着信息检索、智慧城市阿等 下互联网上的数据进行知识抽取⑧例,得到更加细 应用领域的发展要求,将知识图谱应用于这些领 粒度的用户和项目的特征信息,从而更精准的计 域以提高用户体验和系统性能,成为学术界和工 算用户与用户、用户与项目以及项目与项目之间 业界关注的热点。 的相关性,最后为用户做出推荐。 在推荐系统领域,人们关注的往往是用户与 该推荐有3个组成要素:用户知识图谱、项目 项目之间的联系,缺少对用户与用户、项目与项 知识图谱、推荐方法。在此基础上,我们给出了 基于知识图谱的一个推荐系统模型,如图1所 目等之间的相互联系的考虑。基于知识图谱的推 示。该模型分为客户端和服务器端,客户端收集 荐系统通过将用户与用户、用户与项目以及项目 用户的原始数据(包括浏览数据、上下文数据如 与项目之间相互连接起来,增强数据的语义信息 时间、用户状态等)上传至服务器端进行处理。 以进一步提高推荐准确度,具有重要的研究意义 服务器端一方面从各个垂直网站及百科网站中进 和实用价值,逐渐成为推荐系统研究领域最为活 行相关数据搜集,构建项目知识图谱;另一方面, 跃的分支之一。 对用户偏好进行获取,建立用户知识图谱;此外, 1基于知识图谱的推荐系统 通过分析推理的方法获取上下文信息,利用GPS 定位来获取当前用户地理位置信息等。最后,综 随着互联网上信息的爆发式增长,对于多源 合上述信息,通过推荐产生器向目标用户推送其 异构数据的挖掘是推荐系统中的关键问题。知识 感兴趣的项目,并基于用户反馈对推荐性能进行 图谱的提出为推荐系统中多源异构数据的整合处 评估,进一步调整推荐产生器,以适应用户偏好。 互联网 获取上下文 数据采集 项目知 上下文 提取偏好 识图谱 用户知 识图谱 推送 基于本体、LOD、图 目标用户 被推荐项目 嵌入的推荐 反馈 →性能评估 调整 客户端 服务器端 图1基于知识图谱的推荐系统总体框架 Fig.1 The overall framework of recommender system based on knowledge graph
知识图谱的出现为大数据环境下的推荐系统设计 提供了一种有效途径。 2012 年 5 月 17 日谷歌正式提出了“知识图 谱”这个术语[4]。知识图谱旨在描述真实世界中 存在的各种实体或概念,以及他们之间的关联关 系。其中,每个实体或概念用一个全局唯一确定 的 ID 来标识,每个属性−值对用来刻画实体的内 在属性,而关系用来连接两个实体,刻画它们之 间的关联。知识图谱可以融合多种数据源丰富数 据语义信息,并且可以结合推理得到的隐含信息 为用户提供服务。随着信息检索、智慧城市[5]等 应用领域的发展要求,将知识图谱应用于这些领 域以提高用户体验和系统性能,成为学术界和工 业界关注的热点。 在推荐系统领域,人们关注的往往是用户与 项目之间的联系,缺少对用户与用户、项目与项 目等之间的相互联系的考虑。基于知识图谱的推 荐系统通过将用户与用户、用户与项目以及项目 与项目之间相互连接起来,增强数据的语义信息 以进一步提高推荐准确度,具有重要的研究意义 和实用价值,逐渐成为推荐系统研究领域最为活 跃的分支之一。 1 基于知识图谱的推荐系统 随着互联网上信息的爆发式增长,对于多源 异构数据的挖掘是推荐系统中的关键问题。知识 图谱的提出为推荐系统中多源异构数据的整合处 理带来了新的契机,而基于知识图谱的推荐系统 也作为一个新的研究领域被人们所关注。 知识图谱的提出最初是为了优化搜索引擎, 将数据组织成相互链接并且对于其中的每个实体 都富含属性标签,实体间存在多种关系,以此来 实现搜索引擎的优化[6]。在对其进行深入研究后, 了解到知识图谱的应用不局限于搜索,在诸如智 能问答、推荐系统以及金融诈骗领域均有涉猎[7]。 基于知识图谱的推荐系统主要是利用知识图 谱对多源异构数据的整合性,可以对大数据环境 下互联网上的数据进行知识抽取[8] ,得到更加细 粒度的用户和项目的特征信息,从而更精准的计 算用户与用户、用户与项目以及项目与项目之间 的相关性,最后为用户做出推荐。 该推荐有 3 个组成要素:用户知识图谱、项目 知识图谱、推荐方法。在此基础上,我们给出了 基于知识图谱的一个推荐系统模型,如图 1 所 示。该模型分为客户端和服务器端,客户端收集 用户的原始数据 (包括浏览数据、上下文数据如 时间、用户状态等) 上传至服务器端进行处理。 服务器端一方面从各个垂直网站及百科网站中进 行相关数据搜集,构建项目知识图谱;另一方面, 对用户偏好进行获取,建立用户知识图谱;此外, 通过分析推理的方法获取上下文信息,利用 GPS 定位来获取当前用户地理位置信息等。最后,综 合上述信息,通过推荐产生器向目标用户推送其 感兴趣的项目,并基于用户反馈对推荐性能进行 评估,进一步调整推荐产生器,以适应用户偏好。 基于本体、LOD、图 嵌入的推荐 交互 目标用户 互联网 项目知 识图谱 客户端 服务器端 性能评估 调整 推送 反馈 上传 数据采集 上下文 提取偏好 获取上下文 用户知 识图谱 用户 对象 被推荐项目 图 1 基于知识图谱的推荐系统总体框架 Fig. 1 The overall framework of recommender system based on knowledge graph ·208· 智 能 系 统 学 报 第 14 卷
第2期 常亮,等:知识图谱的推荐系统综述 ·209· 对于已给出的基于知识图谱推荐系统整体框 用户访问系统时,利用调查问卷中用户信息进行 架,首先在文献中对该推荐系统进行较为全面的 特征抽取,与旅游本体中人物特征关联进行用户 考察,然后围绕该框架对该推荐系统的关键技术 建模。基于用户兴趣权重及用户特征信息计算用 进行分析。在对基于知识图谱的应用情况进行总 户的兴趣度(S)及置信度(CL),得到一个推荐列 结的基础上,对基于知识图谱的推荐系统面临的 表。然后,基于用户评分、交互行为等,利用基于 重点和难点问题进行讨论。 内容和协同过滤技术对信息进行过滤,通过Pear- 2 基于知识图谱的推荐系统 son回归算法进行相似度排序,进而得出推荐列 表。最终结合GIS定位系统再次过滤,并使用 依据推荐过程中知识图谱表现形式,本文将 ICEfaces框架实时更新推荐列表。为了验证推荐 文献中的基于知识图谱的推荐方法大致分为两大 的准确率,作者将推荐结果与用户反馈进行比 类:基于本体的推荐生成、基于开放链接数据 对,结果表明,90%以上用户认为该系统推荐较 (linked open data,LOD)的推荐生成。此外,鉴于 为准确。 近年来将知识图谱嵌入低维向量空间的方法在推 总体来看,基于本体的推荐生成技术的优点 荐领域扮演的角色越来越重,本节将基于图嵌人 在于:能够细粒度化概念之间的上下文关系,增 的推荐生成单独作为一类来考察。 强数据之间的关联性,可以更加细粒度的分析用 2.1基于本体的推荐生成 户的偏好。缺点在于:本体的构建费时,因为现 本体例作为知识图谱的一种体现形式,强调 阶段主要还是通过手工构建,在某些特定领域需 的是概念之间的层级关系,有逻辑学和语义学的 要专家的参与。基于本体的推荐的范围过窄,因 基础,支持简单的自动推理。基于本体的推荐生 为通用的大规模本体少,大多数本体只针对某个 成的主要思路是:利用本体中细粒度的对概念层 具体应用领域构建。此外在实际应用中不同本体 级关系的描述,通过对概念的细粒度的分类描述 之间映射、扩充与合并处理等操作复杂,现实的 来更加精准的对实体特征进行表示,从而挖掘出 知识体系变化时先前构建的本体必须作相应的演 事实中蕴含的深层次信息。融入现有的基于内容 化保持一致性,导致更新困难。新用户问题,当 的推荐o、基于协同过滤的推荐方法中。最后 一个新用户访问系统时,由于没有他的行为数 结合用户当前的上下文信息生成推荐。 据,所以也无法根据他的历史行为预测其兴趣, Niaraki等l较早地提出基于本体的推荐系 从而无法借此给他做个性化推荐。针对上述问 统。以用户模型和上下文模型为基础构建本体知 题,可以从以下方向进一步研究:应用深度学习 识库,基于本体中概念的层级关系采用多准则决 等相关方法半自动甚至自动地构建本体,加快本 策来扩展以用户为中心的路线规划建模技术,最 体的构建过程。对具体的应用可适当地扩大通用 后通过比较判断过程和一致性指标对相关概念进 的、适用范围更广的本体,丰富本体的语义,增强 行加权,确定用户和上下文模型来满足用户的需 本体间的联系。还可以增加对特征的描述,同时 求。将用户和环境结合起来,基于本体中概念的 对特征描述进行推理,从而得出事实中蕴含的结 层级关系,提供以用户为中心的路线规划,克服 论并将其应用于推荐,以此来及时地更新推荐, 了标准建模不足的缺点,提高了系统推荐路线的 使推荐更具多样化。新用户的问题可以利用用户 准确率。与此类似,Dodwad等也是基于本体的 注册时提供的年龄、性别等数据做进行粒度的个 层次结构对概念进行加权,更加细粒度的分析用 性化。借助用户的社交网络账号登录(需要用户 户的偏好。Saraswathib等则针对求职者在工作 授权),导人用户在社交网站上的好友信息,然后 门户网站的海量数据面前无法快速的筛选工作, 给用户推荐其好友喜欢的物品。此外还可以要求 动态地构建本体,通过重排序和相似度算法为用 用户在登录时对一些物品进行反馈,收集用户对 户推荐职位。 这些物品的兴趣信息,再给用户推荐那些和这些 除了上述基于本体的层次结构以及概念之间 物品相似的物品。 的逻辑关系进行推荐之外,还有研究人员基于传 2.2基于LOD的推荐生成 统的推荐算法结合本体完成推荐任务。 基于LOD的推荐生成技术主要思路是:将链 Moreno等u6完成基于本体和协同过滤的混 接数据库中丰富的语义信息融入到现有的方法 合推荐系统SigTur/E-Destination.。首先,基于人口 中,着重考虑用户偏好、项目之间属性相似度。 特征、旅游景点及路线信息构建旅游本体。在新 通过利用LOD中大量相互关联的数据,更加精细
对于已给出的基于知识图谱推荐系统整体框 架,首先在文献中对该推荐系统进行较为全面的 考察,然后围绕该框架对该推荐系统的关键技术 进行分析。在对基于知识图谱的应用情况进行总 结的基础上,对基于知识图谱的推荐系统面临的 重点和难点问题进行讨论。 2 基于知识图谱的推荐系统 依据推荐过程中知识图谱表现形式,本文将 文献中的基于知识图谱的推荐方法大致分为两大 类:基于本体的推荐生成、基于开放链接数据 (linked open data,LOD) 的推荐生成。此外,鉴于 近年来将知识图谱嵌入低维向量空间的方法在推 荐领域扮演的角色越来越重,本节将基于图嵌入 的推荐生成单独作为一类来考察。 2.1 基于本体的推荐生成 本体[9]作为知识图谱的一种体现形式,强调 的是概念之间的层级关系,有逻辑学和语义学的 基础,支持简单的自动推理。基于本体的推荐生 成的主要思路是:利用本体中细粒度的对概念层 级关系的描述,通过对概念的细粒度的分类描述 来更加精准的对实体特征进行表示,从而挖掘出 事实中蕴含的深层次信息。融入现有的基于内容 的推荐[10] 、基于协同过滤的推荐方法[11]中。最后 结合用户当前的上下文信息生成推荐[12]。 Niaraki 等 [13]较早地提出基于本体的推荐系 统。以用户模型和上下文模型为基础构建本体知 识库,基于本体中概念的层级关系采用多准则决 策来扩展以用户为中心的路线规划建模技术,最 后通过比较判断过程和一致性指标对相关概念进 行加权,确定用户和上下文模型来满足用户的需 求。将用户和环境结合起来,基于本体中概念的 层级关系,提供以用户为中心的路线规划,克服 了标准建模不足的缺点,提高了系统推荐路线的 准确率。与此类似,Dodwad 等 [14]也是基于本体的 层次结构对概念进行加权,更加细粒度的分析用 户的偏好。Saraswathib 等 [15]则针对求职者在工作 门户网站的海量数据面前无法快速的筛选工作, 动态地构建本体,通过重排序和相似度算法为用 户推荐职位。 除了上述基于本体的层次结构以及概念之间 的逻辑关系进行推荐之外,还有研究人员基于传 统的推荐算法结合本体完成推荐任务。 Moreno 等 [16]完成基于本体和协同过滤的混 合推荐系统 SigTur/E-Destination。首先,基于人口 特征、旅游景点及路线信息构建旅游本体。在新 用户访问系统时,利用调查问卷中用户信息进行 特征抽取,与旅游本体中人物特征关联进行用户 建模。基于用户兴趣权重及用户特征信息计算用 户的兴趣度 (S) 及置信度 (CL),得到一个推荐列 表。然后,基于用户评分、交互行为等,利用基于 内容和协同过滤技术对信息进行过滤,通过 Pearson 回归算法进行相似度排序,进而得出推荐列 表。最终结合 GIS 定位系统再次过滤,并使用 ICEfaces 框架实时更新推荐列表。为了验证推荐 的准确率,作者将推荐结果与用户反馈进行比 对,结果表明,90% 以上用户认为该系统推荐较 为准确。 总体来看,基于本体的推荐生成技术的优点 在于:能够细粒度化概念之间的上下文关系,增 强数据之间的关联性,可以更加细粒度的分析用 户的偏好。缺点在于:本体的构建费时,因为现 阶段主要还是通过手工构建,在某些特定领域需 要专家的参与。基于本体的推荐的范围过窄,因 为通用的大规模本体少,大多数本体只针对某个 具体应用领域构建。此外在实际应用中不同本体 之间映射、扩充与合并处理等操作复杂,现实的 知识体系变化时先前构建的本体必须作相应的演 化保持一致性,导致更新困难。新用户问题,当 一个新用户访问系统时,由于没有他的行为数 据,所以也无法根据他的历史行为预测其兴趣, 从而无法借此给他做个性化推荐。针对上述问 题,可以从以下方向进一步研究:应用深度学习 等相关方法半自动甚至自动地构建本体,加快本 体的构建过程。对具体的应用可适当地扩大通用 的、适用范围更广的本体,丰富本体的语义,增强 本体间的联系。还可以增加对特征的描述,同时 对特征描述进行推理,从而得出事实中蕴含的结 论并将其应用于推荐,以此来及时地更新推荐, 使推荐更具多样化。新用户的问题可以利用用户 注册时提供的年龄、性别等数据做进行粒度的个 性化。借助用户的社交网络账号登录 (需要用户 授权),导入用户在社交网站上的好友信息,然后 给用户推荐其好友喜欢的物品。此外还可以要求 用户在登录时对一些物品进行反馈,收集用户对 这些物品的兴趣信息,再给用户推荐那些和这些 物品相似的物品。 2.2 基于 LOD 的推荐生成 基于 LOD 的推荐生成技术主要思路是:将链 接数据库中丰富的语义信息融入到现有的方法 中,着重考虑用户偏好、项目之间属性相似度。 通过利用 LOD 中大量相互关联的数据,更加精细 第 2 期 常亮,等:知识图谱的推荐系统综述 ·209·
·210· 智能系统学报 第14卷 化的衡量资源之间的相似性,挖掘用户的偏好, 佳的方法。数据集是利用SPARQL语句处理DB- 最后结合上下文信息生成推荐结果。因此在引 pedia获取实验所需信息,数据格式为userID、 入LOD之后,语义相似度的计算成为关键所在。 itemID、score。.推荐效果最佳的算法是hello 目前,语义相似计算的方法主要包括链接数据语 Wold(一个混合策略的利用LOD的推荐系统),考 义距离(linked data semantic distance)、基于隐式语 虑数据集中书籍的类型、层级分类、作者信息等, 义反馈的路径算法(SPrank)等。 利用基于内容的方法进行推荐,基于余弦相似度 Passant等m较早地提出将LOD引入到推荐 进行基于协同过滤的推荐,利用Wikidata中数据 系统中。他认为用户的评分信息并不能充分地反 的链入链出进行基于流行度的推荐。最后通过准 映用户的偏好,还应该关注历史数据的语义信 确率、召回率以及均方根误差的计算来评判推荐 息,从而提出将链接开放数据库DBpedia引入到 的准确性。 音乐推荐中,计算知识库中资源的语义距离来完 Lu等2o将利用DBpedia、Geonames和 成推荐任务。首先将已有的音乐数据集利用 Wikidata中的数据构建了关于全世界的旅游知识 SPARQL语句映射到DBpedia中以获取音乐资源 图谱。包含1200多个景点类型,从而可以在很 更为丰富的属性信息。然后基于LDSD过滤无用 细的语义粒度上对景点进行刻画。通过categor- 的属性-值及错误信息。最后利用LDSD计算出 ies来表示用户的兴趣,并且为用户在每类cat- 相关实体的语义距离并利用SPARQL语句查询 cgoy上的兴趣度赋予一个得分值。一般采用两 呈现出来。系统的优点在于不需要依靠传统的推 种方式:frequency-based和time-based。.前者根据 荐算法只需一组公开的数据集就可以实现推荐, 用户访问某类景点的频率/次数来计算得分值。 但是对新用户的问题没有提及,只是对现有用户 后者根据用户在某类景点所待的时间长短来计算 数据分析做出推荐。 分值。文献[20]在这两种情况的基础上,在计算 Noia等u提出利用LOD语义丰富的特点来 分值时,把各个景点在所位于的城市中的影响力 提高基于内容的电影推荐系统的准确率。首先利 也考虑进去。例如,如果A和B都是casino类型 用SPARQL语句将DBpedia、LinkedMDB、Free- 的景点:A所位于的城市以casino类型的景点闻 base中电影相关RDF数据抽取出来用于对知识 名于世,但B所位于的城市却不是以casino类型 库中资源进行更加详细的描述,并通过向量空间 的景点著称;Mary游览了A,Paul游览了B:Mary和 模型(VSM)来计算资源之间的相似性,项目 Paul游览casino类型景点的频率和所花的时间都 m,和m,的相似性可以标识为 一样多。则,在考虑了城市的影响力之后得到的 Wa4pwsn 结果是:Mary对casino类型景点的喜好程度比 simP(mi,m)= =1 Paul对casino类型景点的喜好程度更高。通过知 识图谱中的信息,可以获得不同类型的景点在其 式中:wap表示根据TF-IDF所得到的权重,TF为 所位于的城市中的影响力。综合上面两个方面的 优势,与采用简单本体的方法相比,文献「20]的工 具有p属性的节点n的频率,IDF为电影总数与 链接到资源n的电影数量之间比率的对数。然后 作可以在更细的语义粒度上刻画景点类型,可以 根据用户的评分记录为用户建模,用户“可以建 更好地捕获游客的兴趣,最终得到更好的推荐效果。 Oramas等2研究基于知识图谱的声音和音乐 模为 profile(u)=(<mj,vj>Ivj 1 if u likes mj. 的推荐,主要描述如何创建和利用知识图谱并结 v;=-1 otherwisel 合混合推荐引擎来完成推荐任务。文献[21]中构 最后通过公式计算得分为用户进行topN推荐: 建了声音和音乐两个知识图谱,首先分别从Free- ∑pap·simP(m,m) sound.org、Songfacts.com以及Last.fm中获取标 广u,m,)=/prohie(a) P 签、文本描述信息以及用户收听和下载的信息, Iprofile(u) 遵循基于本体的方法,利用Babelfy(对于给定的 Noia等u总结了ESWC2014年利用LOD实 单词返回相关的wordNet以及维基百科页面) 现书籍推荐系统的相关算法。其中推荐的任务主 种用于实体链接和同义词消歧的最先进的工具, 要包括3部分:冷启动环境下的评分预测、基于 通过将它们与在线数据集中定义的实体关联,丰 用户反馈做top-N推荐、基于内容的推荐系统的 富从文本描述中提取的标签和关键词。其中识别 多样性。主要简述数据集的特征以及推荐效果最 的命名实体链接到DBpedia资源,消歧的单词链
化的衡量资源之间的相似性,挖掘用户的偏好, 最后结合上下文信息生成推荐结果。因此在引 入 LOD 之后,语义相似度的计算成为关键所在。 目前,语义相似计算的方法主要包括链接数据语 义距离 (linked data semantic distance)、基于隐式语 义反馈的路径算法 (SPrank) 等。 Passant 等 [17]较早地提出将 LOD 引入到推荐 系统中。他认为用户的评分信息并不能充分地反 映用户的偏好,还应该关注历史数据的语义信 息,从而提出将链接开放数据库 DBpedia 引入到 音乐推荐中,计算知识库中资源的语义距离来完 成推荐任务。首先将已有的音乐数据集利用 SPARQL 语句映射到 DBpedia 中以获取音乐资源 更为丰富的属性信息。然后基于 LDSD 过滤无用 的属性-值及错误信息。最后利用 LDSD 计算出 相关实体的语义距离并利用 SPARQL 语句查询 呈现出来。系统的优点在于不需要依靠传统的推 荐算法只需一组公开的数据集就可以实现推荐, 但是对新用户的问题没有提及,只是对现有用户 数据分析做出推荐。 Noia 等 [18]提出利用 LOD 语义丰富的特点来 提高基于内容的电影推荐系统的准确率。首先利 用 SPARQL 语句将 DBpedia、LinkedMDB、Freebase 中电影相关 RDF 数据抽取出来用于对知识 库中资源进行更加详细的描述,并通过向量空间 模 型 (VSM) 来计算资源之间的相似性,项 目 mi 和 mj 的相似性可以标识为 simp (mi ,mj) = ∑t n=1 wn,i,pwn, j,p √ ∑t n=1 w2 n,i,p √ ∑t n=1 w2 n, j,p 式中: wn,i,p表示根据 TF-IDF 所得到的权重,TF 为 具有 p 属性的节点 n 的频率,IDF 为电影总数与 链接到资源 n 的电影数量之间比率的对数。然后 根据用户的评分记录为用户建模,用户 u 可以建 模为 profile(u) = {< mj , vj > | vj = 1 if u likes mj , vj = −1 otherwise} 最后通过公式计算得分为用户进行 top-N 推荐: r˜(u,mi) = ∑ mj∈profile(u) vj . ∑ p αp ·simp (mj ,mi) P |profile(u)| Noia 等 [19]总结了 ESWC2014 年利用 LOD 实 现书籍推荐系统的相关算法。其中推荐的任务主 要包括 3 部分:冷启动环境下的评分预测、基于 用户反馈做 top-N 推荐、基于内容的推荐系统的 多样性。主要简述数据集的特征以及推荐效果最 佳的方法。数据集是利用 SPARQL 语句处理 DBpedia 获取实验所需信息,数据格式为 userID、 itemID、score。推荐效果最佳的算法是 helloWorld(一个混合策略的利用 LOD 的推荐系统),考 虑数据集中书籍的类型、层级分类、作者信息等, 利用基于内容的方法进行推荐,基于余弦相似度 进行基于协同过滤的推荐,利用 Wikidata 中数据 的链入链出进行基于流行度的推荐。最后通过准 确率、召回率以及均方根误差的计算来评判推荐 的准确性。 Lu 等 [ 2 0 ]将 利 用 DBpedia、 Geoname s 和 Wikidata 中的数据构建了关于全世界的旅游知识 图谱。包含 1 200 多个景点类型,从而可以在很 细的语义粒度上对景点进行刻画。通过 categories 来表示用户的兴趣,并且为用户在每类 category 上的兴趣度赋予一个得分值。一般采用两 种方式:frequency-based 和 time-based。前者根据 用户访问某类景点的频率/次数来计算得分值。 后者根据用户在某类景点所待的时间长短来计算 分值。文献[20]在这两种情况的基础上,在计算 分值时,把各个景点在所位于的城市中的影响力 也考虑进去。例如,如果 A 和 B 都是 casino 类型 的景点;A 所位于的城市以 casino 类型的景点闻 名于世,但 B 所位于的城市却不是以 casino 类型 的景点著称;Mary 游览了 A,Paul 游览了 B;Mary 和 Paul 游览 casino 类型景点的频率和所花的时间都 一样多。则,在考虑了城市的影响力之后得到的 结果是:Mary 对 casino 类型景点的喜好程度比 Paul 对 casino 类型景点的喜好程度更高。通过知 识图谱中的信息,可以获得不同类型的景点在其 所位于的城市中的影响力。综合上面两个方面的 优势,与采用简单本体的方法相比,文献[20]的工 作可以在更细的语义粒度上刻画景点类型,可以 更好地捕获游客的兴趣,最终得到更好的推荐效果。 Oramas 等 [21]研究基于知识图谱的声音和音乐 的推荐,主要描述如何创建和利用知识图谱并结 合混合推荐引擎来完成推荐任务。文献[21]中构 建了声音和音乐两个知识图谱,首先分别从 Freesound.org、Songfacts.com 以及 Last.fm 中获取标 签、文本描述信息以及用户收听和下载的信息, 遵循基于本体的方法,利用 Babelfy(对于给定的 单词返回相关的 wordNet 以及维基百科页面) 一 种用于实体链接和同义词消歧的最先进的工具, 通过将它们与在线数据集中定义的实体关联,丰 富从文本描述中提取的标签和关键词。其中识别 的命名实体链接到 DBpedia 资源,消歧的单词链 ·210· 智 能 系 统 学 报 第 14 卷
第2期 常亮,等:知识图谱的推荐系统综述 ·211 接到WordNet synsets。最后基于声音和音乐知识 2.3 基于图嵌入的推荐生成 图谱利用基于实体的邻居项目匹配和基于路径的 随着Deepwalk2的提出,图嵌入技术开始受 邻居项目匹配为用户进行推荐。由于系统通过与 到学术界以及工业界的关注。其基本原理是基于 外部的知识库关联在很大程度上补充了知识库中 随机游走等算法对图中节点进行采样生成节点序 的语义信息,使得推荐更加准确、覆盖面更广。 列,然后通过神经网络或者是其他机器学习算法 Heitmann等2a提出利用LOD构建一个开放 将节点序列以及边映射到底维向量空间。图嵌入 的协同过滤推荐系统。传统的推荐算法由于其对 作为一种更为广泛的图表示学习方法,已经被应 数据的需求门槛比较高,这使得新服务提供商难 用到推荐领域,并且取得了较好的效果。 以与领域中的现有推荐服务进行竞争。文献[22] Laszleó等26较早将图嵌入技术应用于推荐领 中主要利用LOD来解决获取构建推荐系统数据 域。将Movielens中电影与用户嵌入到同一个向 的问题。实现步骤是:将来自不同来源的用户项 量空间,进而计算用户与电影的空间距离,生成 目连接的数据集成到通用的词汇表、将数据的表 推荐列表。Wang等P做了同样的工作,将医学知 示从RDF图转换为用户项目矩阵、在用户项目矩 识图谱、疾病-患者二部图、疾病-药物二部图分别 阵中应用特定的协同过滤算法。最后通过一个真 嵌入低维向量空间,为病患推荐更为安全的药物 实的协同过滤音乐推荐系统,利用LOD丰富数据 治疗方式。通过加权平均将知识图谱与二部图结 语义信息,在只使用原有数据时平均精度为2%, 合生成包含更加细粒度属性信息的患者和 平均召回率为7%,在加入链接数据库之后平均精 药物向量。最终生成对给定患者的药物top-k 度为14%,平均召回率为33%,证明其准确高效性。 列表。 Ostuni等2更进一步融合LOD中隐含的语义 Palumbo等21针对基于知识图谱的推荐生成 反馈信息,提出基于隐式语义反馈的路径算法 提出一种通用的向量化模型entity.2rec。利用一种 (SPrank)。基于路径的特征对数据集进行挖掘,以 神经网络模型将知识图谱中的节点依据相连接的 捕获项目之间的复杂关系。SPrank的主要思想是 属性值训练为向量的模式,通过余弦相似度计算 探索语义图中的路径,以便找到与用户感兴趣的 用户项目相关性,进而利用机器学习排序函数进 项目相关的项目。从这些路径的分析中,提取基 行推荐列表的生成。首先利用SPARQL语句将 于路径的特征,并利用随机森林与渐变增强回归 知识图谱分解为属性子图,针对每个属性子图设 树相结合的学习算法来生成推荐列表。 置目标函数: Ristoski等24提出一种基于LOD的混合多策 max ∑(-logZ.+∑x,m,)x,(e) 略推荐系统。将基础推荐结果与通用的推荐结果 n,EN(e) 相结合形成最终的推荐结果。基础推荐利用 生成特定属性的用户和项目的特征向量,其中: LOD中丰富的数据信息结合基于协同过滤和基 Z.=∑exp(,(e)-x,) 于内容的推荐,通用推荐是针对全球流行度得分 进行推荐,对于所有的用户都是一样的。对于基 然后通过: 础推荐使用的是基于内容、项目的协同过滤以及 s(p(u),x(i)),p feedback 利用从DBpedia中获取的丰富的数据信息进行基 Pp(u,i) 1 sx,@,们其他 于内容的推荐,通用推荐使用不同的推荐器进行 R.(u. 组合。然后利用K.M.Ting等2提出的堆叠模型 计算用户项目之间的相关性。最后分别通过 将基础与通用推荐器结合起来。最后通过计算F- 机器学习算法Adrank和LambdaMart生成推荐 Score的值来衡量推荐的准确度,结果表明,本策 列表。 略在一定程度上提高了推荐的准确率。 3基于知识图谱的推荐系统关键技术 总体来看,基于LOD的推荐生成技术优点在 于:数据关联表达很强、逻辑性强并具备一定的 基于知识图谱的推荐系统综合了知识图谱和 推理能力,可以自动发现一些隐含的语义信息, 传统推荐系统的特点,成为了一个新的研究主 能够提高推荐准确度。但是,这种方式也存在缺 题,目前正处于初始发展阶段。在第2章考察相 点:由于推荐的过程依赖于外部知识库,因此外 关研究工作的基础上,本节主要对第1章中提出 部知识库的完备与否对推荐结果的影响巨大,推 的基于知识图谱的框架中的关键技术和研究现状 荐多样性问题以及计算量大等问题有待解决。 进行进一步的分析
接到 WordNet synsets。最后基于声音和音乐知识 图谱利用基于实体的邻居项目匹配和基于路径的 邻居项目匹配为用户进行推荐。由于系统通过与 外部的知识库关联在很大程度上补充了知识库中 的语义信息,使得推荐更加准确、覆盖面更广。 Heitmann 等 [22]提出利用 LOD 构建一个开放 的协同过滤推荐系统。传统的推荐算法由于其对 数据的需求门槛比较高,这使得新服务提供商难 以与领域中的现有推荐服务进行竞争。文献[22] 中主要利用 LOD 来解决获取构建推荐系统数据 的问题。实现步骤是:将来自不同来源的用户项 目连接的数据集成到通用的词汇表、将数据的表 示从 RDF 图转换为用户项目矩阵、在用户项目矩 阵中应用特定的协同过滤算法。最后通过一个真 实的协同过滤音乐推荐系统,利用 LOD 丰富数据 语义信息,在只使用原有数据时平均精度为 2%, 平均召回率为 7%,在加入链接数据库之后平均精 度为 14%,平均召回率为 33%,证明其准确高效性。 Ostuni 等 [23]更进一步融合 LOD 中隐含的语义 反馈信息,提出基于隐式语义反馈的路径算法 (SPrank)。基于路径的特征对数据集进行挖掘,以 捕获项目之间的复杂关系。SPrank 的主要思想是 探索语义图中的路径,以便找到与用户感兴趣的 项目相关的项目。从这些路径的分析中,提取基 于路径的特征,并利用随机森林与渐变增强回归 树相结合的学习算法来生成推荐列表。 Ristoski 等 [24]提出一种基于 LOD 的混合多策 略推荐系统。将基础推荐结果与通用的推荐结果 相结合形成最终的推荐结果。基础推荐利用 LOD 中丰富的数据信息结合基于协同过滤和基 于内容的推荐,通用推荐是针对全球流行度得分 进行推荐,对于所有的用户都是一样的。对于基 础推荐使用的是基于内容、项目的协同过滤以及 利用从 DBpedia 中获取的丰富的数据信息进行基 于内容的推荐,通用推荐使用不同的推荐器进行 组合。然后利用 K.M.Ting 等 [25]提出的堆叠模型 将基础与通用推荐器结合起来。最后通过计算 FScore 的值来衡量推荐的准确度,结果表明,本策 略在一定程度上提高了推荐的准确率。 总体来看,基于 LOD 的推荐生成技术优点在 于:数据关联表达很强、逻辑性强并具备一定的 推理能力,可以自动发现一些隐含的语义信息, 能够提高推荐准确度。但是,这种方式也存在缺 点:由于推荐的过程依赖于外部知识库,因此外 部知识库的完备与否对推荐结果的影响巨大,推 荐多样性问题以及计算量大等问题有待解决。 2.3 基于图嵌入的推荐生成 随着 Deepwalk[25]的提出,图嵌入技术开始受 到学术界以及工业界的关注。其基本原理是基于 随机游走等算法对图中节点进行采样生成节点序 列,然后通过神经网络或者是其他机器学习算法 将节点序列以及边映射到底维向量空间。图嵌入 作为一种更为广泛的图表示学习方法,已经被应 用到推荐领域,并且取得了较好的效果。 László等 [26]较早将图嵌入技术应用于推荐领 域。将 Movielens 中电影与用户嵌入到同一个向 量空间,进而计算用户与电影的空间距离,生成 推荐列表。Wang 等 [27]做了同样的工作,将医学知 识图谱、疾病-患者二部图、疾病-药物二部图分别 嵌入低维向量空间,为病患推荐更为安全的药物 治疗方式。通过加权平均将知识图谱与二部图结 合生成包含更加细粒度属性信息的患者和 药物向量。最终生成对给定患者的药物 top-k 列表。 Palumbo 等 [28]针对基于知识图谱的推荐生成 提出一种通用的向量化模型 entity2rec。利用一种 神经网络模型将知识图谱中的节点依据相连接的 属性值训练为向量的模式,通过余弦相似度计算 用户项目相关性,进而利用机器学习排序函数进 行推荐列表的生成。首先利用 SPARQL 语句将 知识图谱分解为属性子图,针对每个属性子图设 置目标函数: max xp ∑ e∈Kp (−logZe + ∑ ni∈N(e) xp(ni)· xp(e)) 生成特定属性的用户和项目的特征向量,其中: Ze = ∑ v∈Kp exp(xp(e)· xp(v)) 然后通过: ρp(u,i) = s(xp(u), xp(i)), p = feedback 1 |R+(u)| ∑ i ′∈R+(u) s(xp(i), xp(i ′ )), 其他 计算用户项目之间的相关性。最后分别通过 机器学习算法 Adrank 和 LambdaMart 生成推荐 列表。 3 基于知识图谱的推荐系统关键技术 基于知识图谱的推荐系统综合了知识图谱和 传统推荐系统的特点,成为了一个新的研究主 题,目前正处于初始发展阶段。在第 2 章考察相 关研究工作的基础上,本节主要对第 1 章中提出 的基于知识图谱的框架中的关键技术和研究现状 进行进一步的分析。 第 2 期 常亮,等:知识图谱的推荐系统综述 ·211·