第11卷第6期 智能系统学报 Vol.11 No.6 2016年12月 CAAI Transactions on Intelligent Systems Dec.2016 D0I:10.11992/is.201612007 网络出版地址:http://www.cnki.net/kcms/detail,/23.1538.TP.20170111.1619.002.html 在线社交网络挖掘与搜索技术研究 石磊,杜军平1,周亦鹏2,叶杭,赖金财,何奕江 (1.北京邮电大学智能通信软件与多蝶体北京市重点实验室,北京100876;2.北京工商大学计算机与信息工程学 院,北京100048) 摘要:随着在线社交网络的蓬勃发展,传统的数据挖掘的和搜索方法已经不能完全适用于Wb2.0时代的社交网 络。社交网络具有社交关系复杂、数据量大、动态更新、数据多模态等特点,给数据挖掘和搜索的研究来了巨大的挑 战。因此,研究基于社交网络挖掘和搜索的新方法成为学术界和工业界的一项新任务。文章全面分析了社交网络 发展的基本情况和存在的问题,阐述了社交网络结构建模、信息传播机制、社区发现、情感分析、事件监测及社交网 络搜索排序技术的主要研究工作,并基于已有研究工作对社交网络挖掘和网络搜索技术进行了分析和展望。 关键词:社交网络:数据挖掘:搜索:社区发现:信息传播 中图分类号:TP393文献标志码:A文章编号:1673-4785(2016)06-0777-11 中文引用格式:石磊,杜军平,周亦鹏,等.在线杜交网络挖掘与搜索技术研究[J].智能系统学报,2016,11(6):777-787. 英文引用格式:SHI Lei,DU Junping,ZHO0 Yipeng,ctal.A survey on online social network mining and search[J].CAAI Trans-- actions on Intelligent Systems,2016,11(6):777-787. A survey on online social network mining and search SHI Lei',DU Junping',ZHOU Yipeng?,YE Hang',LAI Jincai',HE Yijiang' (1.Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia,Beijing University of Posts and Telecommunica- tions,Beijing 100876,China;2.School of Computer Science and Information Engineering,Beijing Technology and Business Universi- ty,Beijing 100048,China) Abstract:With the vigorous development of online social networks,the traditional technologies of data mining and searching cannot solve the problems of social networks in the Web 2.0 era.Social networks,accompanied by com- plex social relationships,large amounts of data,dynamic updates,multimodal data,etc.have brought great chal- lenge to the study of data mining and searching.Therefore,the research of novel algorithms of social network mining and searching has become a new task in both academia and industry.This paper summarized the basic situation and problems of social networks,and analyzed structural modeling techniques,information transmission mechanisms, community detection,sentiment analysis,event detection and search ranking techniques of social networks.Based on the analysis of previous researches,the prospect of social network data mining and search technologies was fore- casted in this paper. Keywords:social networks;data mining;search;community detection;information transmission 在线社交网络也称社交网络服务(SNS)山,SNS是由网络上每个独立存在的个体以及个体之间 的相互关系所构成的一个社会化媒体网络。随着这 收稿日期:2016-12-06. 种新型网络的出现,把以前网络仅仅是用户消耗和 基金项目:国家自然科学基金重点项目(61532006):国家自然科学基金 重大国际合作项目(61320106006). 获取信息,变成了一个人人参与、人人可以产生信 通信作者:杜军平.E-mail:junpinge@126.com 息,而且用户之间可以进行交流和互动的网络。目
第 11 卷第 6 期 智 能 系 统 学 报 Vol.11 №.6 2016 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2016 DOI:10.11992 / tis.201612007 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20170111.1619.002.html 在线社交网络挖掘与搜索技术研究 石磊1 ,杜军平1 ,周亦鹏2 ,叶杭1 ,赖金财1 ,何奕江1 (1.北京邮电大学 智能通信软件与多媒体北京市重点实验室,北京 100876; 2.北京工商大学 计算机与信息工程学 院,北京 100048) 摘 要:随着在线社交网络的蓬勃发展,传统的数据挖掘的和搜索方法已经不能完全适用于 Web 2.0 时代的社交网 络。 社交网络具有社交关系复杂、数据量大、动态更新、数据多模态等特点,给数据挖掘和搜索的研究来了巨大的挑 战。 因此,研究基于社交网络挖掘和搜索的新方法成为学术界和工业界的一项新任务。 文章全面分析了社交网络 发展的基本情况和存在的问题,阐述了社交网络结构建模、信息传播机制、社区发现、情感分析、事件监测及社交网 络搜索排序技术的主要研究工作,并基于已有研究工作对社交网络挖掘和网络搜索技术进行了分析和展望。 关键词:社交网络;数据挖掘;搜索;社区发现;信息传播 中图分类号: TP393 文献标志码:A 文章编号:1673-4785(2016)06-0777-11 中文引用格式:石磊,杜军平,周亦鹏,等. 在线社交网络挖掘与搜索技术研究[J]. 智能系统学报, 2016, 11(6): 777-787. 英文引用格式:SHI Lei, DU Junping, ZHOU Yipeng, et al. A survey on online social network mining and search[J]. CAAI Trans⁃ actions on Intelligent Systems, 2016, 11(6): 777-787. A survey on online social network mining and search SHI Lei 1 , DU Junping 1 , ZHOU Yipeng 2 , YE Hang 1 , LAI Jincai 1 , HE Yijiang 1 ( 1. Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia, Beijing University of Posts and Telecommunica⁃ tions, Beijing 100876, China; 2. School of Computer Science and Information Engineering, Beijing Technology and Business Universi⁃ ty, Beijing 100048, China) Abstract:With the vigorous development of online social networks, the traditional technologies of data mining and searching cannot solve the problems of social networks in the Web 2.0 era. Social networks, accompanied by com⁃ plex social relationships, large amounts of data, dynamic updates, multimodal data, etc. have brought great chal⁃ lenge to the study of data mining and searching. Therefore, the research of novel algorithms of social network mining and searching has become a new task in both academia and industry. This paper summarized the basic situation and problems of social networks, and analyzed structural modeling techniques, information transmission mechanisms, community detection, sentiment analysis, event detection and search ranking techniques of social networks. Based on the analysis of previous researches, the prospect of social network data mining and search technologies was fore⁃ casted in this paper. Keywords: social networks; data mining; search; community detection; information transmission 收稿日期:2016-12-06. 基金项目:国家自然科学基金重点项目(61532006);国家自然科学基金 重大国际合作项目(61320106006). 通信作者:杜军平. E⁃mail:junpingdu@ 126.com. 在线社交网络也称社交网络服务( SNS) [1] , SNS 是由网络上每个独立存在的个体以及个体之间 的相互关系所构成的一个社会化媒体网络。 随着这 种新型网络的出现,把以前网络仅仅是用户消耗和 获取信息,变成了一个人人参与、人人可以产生信 息,而且用户之间可以进行交流和互动的网络。 目
·778 智能系统学报 第11卷 前存在的社交网络形式可以分为5类):即时通信 发现、情感分析、事件监测、搜索索引及排序等方面 类,如腾讯QQ、MSN、微信等:在线社交平台类,如 对目前社交网络挖掘和搜索相关研究的现状进行了 FaceBook、LinkedIn、人人网等:社交微博平台类,如 总结和论述,并对社交网络挖掘和搜索的发展趋势 Twitter、新浪微博、腾讯微博等:标签协同平台类,如 进行了展望。 Delicious、Flickr等;科研分享与社交平台,如Re- 1在线社交网络挖掘的关键技术 searchGate、学术圈等。用户通过这些平台可以在线 交流、交换信息、分享资源、新闻转发和评论等。另 社交网络挖掘作为最近几年热门的研究和应 外,随着社交网络的出现,传统的新闻门户网站或各 用,涉及多种理论和技术,包括了数理统计、数据挖 大传统媒体的官方网站也都提供了基于社交网络的 掘技术、矩阵论等。 分享和转发功能,方便用户快速分享新闻或电子期 数据挖掘[)一般是指从大量的数据中通过算 刊到相关社交网络平台。 法搜索隐藏于其中信息的过程。数据挖掘通常与计 随着在线社交网络的蓬勃发展,数据也在快 算机科学有关,并通过统计、在线分析处理、情报检 速增长,FaceBook有超过16亿的活跃用户,而中 索、机器学习、专家系统和模式识别等诸多方法来实 国的新浪微博也有超过5亿的活跃用户。社交 现。而社交网络分析与挖掘则是通过数据挖掘的方 网络正日益影响着用户的生活习惯,成为用户生 法从社交网络数据中提取信息的过程[,目前在社 活中的一部分。社交网络相比传统网络体现出 交网络分析与挖掘方向主要的研究有社交网络结构 更加复杂的综合特征,使得传统的挖掘理论和模 建模、信息传播研究、社区发现、情感分析及事件监 型难以描述社交网络中的用户行为方式。只有 测等。 通过有效的挖掘社交网络中的文本、图片等多种 1.1社交网络结构建模 信息,分析数据中隐含的特有属性、研究用户的 社交网络结构建模是社交网络研究的基础,采用 行为特征,才可以弥补传统挖掘和搜索方法在社 结构化方法和数学方法来研究社交网络的内部各种 交网络中的不足,实现满足用户个性化需求的智 特征和机制。基于社交网络研究的第一步是对其结 慧化的搜索。当前在线社交网络挖掘中最具有 构进行建模刀,目的是对其内部结构和演化规律进 代表性的研究方向包括社交网络结构建模、信息 行深化。一般对社交网络结构建模通过统计学习方 传播、社区发现、情感分析、事件监测等。 法来构造,然后分析社交网络的分布规律、关系紧密 在海量数据中找到自己想要的或者感兴趣的内 程度、相识关系的紧密程度,某个用户对于网络中其 容和信息,通常被称之为信息搜索,它是指信息按一 他用户对之间传递消息的重要程度等诸多统计特性。 定的方式组织起来,并根据信息用户的需要找出有 社交网络建模由最初的ER随机图模型到小世 关的信息的过程和技术[)。信息搜索主要使用传 界、无标度模型、六度分割等。Moreno等首先将图 统的搜索引擎来进行,采用的方法包括基于Wb1.0 论的方法引入了人类社交关系分析中,随着技术的 静态网页,通过BM25等算法计算内容的相似性。 发展,研究人员发现ER随机图已经不能解决重尾 在排序方面主要采用了传统的谷歌PageRank和 分布等问题,因此能够解决这些问题的参数特征小 HITS算法。但这种传统的搜索算法对Wb2.0的 世界网络被提出,这是一个基于统计的模型。 应用不能很好地支持,同时没有考虑社交网络的5V Handcock等提出的隐含位置聚类模型,Watts等分 性[4)。社交网络搜索区别于一般搜索的一个重要 析和验证了“六度分隔”和小世界模型劉。Kumar 特点是除了对内容的搜索之外,还可以提供对特定 等研究了在线社区的路径长度问题,其长度要大于 对象如个人、群体、社区的搜索,这就需要挖掘社交 “六度分隔”。Harary等提出一种有向图模型来表 网络中社交关系、社区、事件传播、情感分析等内容 示社交网络中的单向关系[劉。H$U等)通过应用 来弥补社交网络内容搜索的缺陷,因此如何围绕用 可变的社会向量时钟和权重变化,构建了一个权重 户和网页作为中心,实现如搜索用户、社会关系、社 耦合的定向链路生成算法,对社交网络群体结构建 区发现、事件来源等社会化层面的搜索,并通过理解 模。Domg等[o通过图模型研究了社交网络中个人 用户的意图等实现智慧化搜索是社交网络搜索研究 和相关社会现象之间的关系,实现人口统计推断、链 的关键。 接推荐、社会影响预测等应用。Slaughter等t提出 本文主要从社交网络结构建模、信息传播、社区 基于贝叶斯多层次模型的社交网络结构模型,拓展
前存在的社交网络形式可以分为 5 类[2] :即时通信 类,如腾讯 QQ、MSN、微信等;在线社交平台类,如 FaceBook、LinkedIn、人人网等;社交微博平台类,如 Twitter、新浪微博、腾讯微博等;标签协同平台类,如 Delicious、Flickr 等;科研分享与社交平台,如 Re⁃ searchGate、学术圈等。 用户通过这些平台可以在线 交流、交换信息、分享资源、新闻转发和评论等。 另 外,随着社交网络的出现,传统的新闻门户网站或各 大传统媒体的官方网站也都提供了基于社交网络的 分享和转发功能,方便用户快速分享新闻或电子期 刊到相关社交网络平台。 随着在线社交网络的蓬勃发展,数据也在快 速增长,FaceBook 有超过 16 亿的活跃用户,而中 国的新浪微博也有超过 5 亿的活跃用户。 社交 网络正日益影响着用户的生活习惯,成为用户生 活中的一部分。 社交网络相比传统网络体现出 更加复杂的综合特征,使得传统的挖掘理论和模 型难以描述社交网络中的用户行为方式。 只有 通过有效的挖掘社交网络中的文本、图片等多种 信息,分析数据中隐含的特有属性、研究用户的 行为特征,才可以弥补传统挖掘和搜索方法在社 交网络中的不足,实现满足用户个性化需求的智 慧化的搜索。 当前在线社交网络挖掘中最具有 代表性的研究方向包括社交网络结构建模、信息 传播、社区发现、情感分析、事件监测等。 在海量数据中找到自己想要的或者感兴趣的内 容和信息,通常被称之为信息搜索,它是指信息按一 定的方式组织起来,并根据信息用户的需要找出有 关的信息的过程和技术[3] 。 信息搜索主要使用传 统的搜索引擎来进行,采用的方法包括基于Web 1.0 静态网页,通过 BM25 等算法计算内容的相似性。 在排序方面主要采用了传统的谷歌 PageRank 和 HITS 算法。 但这种传统的搜索算法对 Web 2.0 的 应用不能很好地支持,同时没有考虑社交网络的 5V 性[4] 。 社交网络搜索区别于一般搜索的一个重要 特点是除了对内容的搜索之外,还可以提供对特定 对象如个人、群体、社区的搜索,这就需要挖掘社交 网络中社交关系、社区、事件传播、情感分析等内容 来弥补社交网络内容搜索的缺陷,因此如何围绕用 户和网页作为中心,实现如搜索用户、社会关系、社 区发现、事件来源等社会化层面的搜索,并通过理解 用户的意图等实现智慧化搜索是社交网络搜索研究 的关键。 本文主要从社交网络结构建模、信息传播、社区 发现、情感分析、事件监测、搜索索引及排序等方面 对目前社交网络挖掘和搜索相关研究的现状进行了 总结和论述,并对社交网络挖掘和搜索的发展趋势 进行了展望。 1 在线社交网络挖掘的关键技术 社交网络挖掘作为最近几年热门的研究和应 用,涉及多种理论和技术,包括了数理统计、数据挖 掘技术、矩阵论等。 数据挖掘[5] 一般是指从大量的数据中通过算 法搜索隐藏于其中信息的过程。 数据挖掘通常与计 算机科学有关,并通过统计、在线分析处理、情报检 索、机器学习、专家系统和模式识别等诸多方法来实 现。 而社交网络分析与挖掘则是通过数据挖掘的方 法从社交网络数据中提取信息的过程[6] ,目前在社 交网络分析与挖掘方向主要的研究有社交网络结构 建模、信息传播研究、社区发现、情感分析及事件监 测等。 1.1 社交网络结构建模 社交网络结构建模是社交网络研究的基础,采用 结构化方法和数学方法来研究社交网络的内部各种 特征和机制。 基于社交网络研究的第一步是对其结 构进行建模[ 7 ] ,目的是对其内部结构和演化规律进 行深化。 一般对社交网络结构建模通过统计学习方 法来构造,然后分析社交网络的分布规律、关系紧密 程度、相识关系的紧密程度,某个用户对于网络中其 他用户对之间传递消息的重要程度等诸多统计特性。 社交网络建模由最初的 ER 随机图模型到小世 界、无标度模型、六度分割等。 Moreno 等首先将图 论的方法引入了人类社交关系分析中,随着技术的 发展,研究人员发现 ER 随机图已经不能解决重尾 分布等问题,因此能够解决这些问题的参数特征小 世界 网 络 被 提 出, 这 是 一 个 基 于 统 计 的 模 型。 Handcock 等提出的隐含位置聚类模型,Watts 等分 析和验证了“六度分隔” 和小世界模型[8] 。 Kumar 等研究了在线社区的路径长度问题,其长度要大于 “六度分隔”。 Harary 等提出一种有向图模型来表 示社交网络中的单向关系[8] 。 HSU 等[9] 通过应用 可变的社会向量时钟和权重变化,构建了一个权重 耦合的定向链路生成算法,对社交网络群体结构建 模。 Dong 等[10]通过图模型研究了社交网络中个人 和相关社会现象之间的关系,实现人口统计推断、链 接推荐、社会影响预测等应用。 Slaughter 等[11] 提出 基于贝叶斯多层次模型的社交网络结构模型,拓展 ·778· 智 能 系 统 学 报 第 11 卷
第6期 石磊,等:在线社交网络挖掘与搜索技术研究 ·779. 了现有的随机图结构,同时允许组内连接结构之间 中时间和空间的变化,来预测社交网络中传递过程 的信息传输。Amato等12]在超图模型基础上提出 的展开方式,分为基于图和基于非图两类模型。 了基于Fikr社交多模态信息的超图模型结构模 1)基于图模型。Romero等)提出了一个线性 型,利用超图建立多媒体内容之间、用户和多媒体内 阈值模型来预测传递过程的方法,该方法依赖于信 容之间、用户和用户之间的关系,该模型的引入打破 息病毒式传播及成对用户之间的影响力和接受信息 了传统方法只能引入简单的社交关系的限制,为深 概率参数等。Saito等[2o]提出了ASIC和ASLT算 入研究社交网络提供了方法。 法,通过提出异步扩展,放宽传统的基于图形的IC 基于非图结构的研究方面,Bajaj等]提出了 和LT模型的同步性假设。Guille等2将传播过程 一种基于Agent的模型,该模型把社交网络结构视 建模为异步独立级联过程,提出了T-BaSIC模型。 为一个外生变量,是一种时间感知的关系模型。M- Xu等[2提出随时间变化的信息扩散模型。该模型 houb等[4模拟一个主体参与的面对面社交行为, 主要探讨了随时间变化的信息扩散模型和标准模型 提出了基于贝叶斯网络多式联运的行为模型,并通 的关系。 过实验验证了其性能优于马尔可夫模型(HMM)和 2)基于非图模型。Wen等[2)提出了一个随机 隐马尔可夫模型(HSMMS)。 节点水平传播分析模型,它可以动态地获取信息传 由于在线社交网络结构具有社交关系复杂、内 播时间和捕获人们的行为差异,并可以分析社会参 容多样、结构动态变化、数据多维等特点,所以对其 数对信息传播的影响。Tuarob等[2)]提出了一个基 进行深入研究还需要更多有效的建模和计算方法, 于四种网络信号的OIA-SRS模型,用于观察网络节 而不是仅局限于图的建模方法。 点信息在不同节点中的传递情况。Tambuscio等() 1.2社交网络信息传播 提出了一个改进的SS模型用于预测错误信息在社 社交网络的分享和转发功能使用户可以随时转 交网络中的传递规模。模型依赖于4种参数,分别 发和分享社交信息,其信息数据的传播和扩散的范 为传递速率、轻信程度、验证可能性和遗忘速度。在 围迅速扩大,通过对社交网络中信息的传播机制进 同构网、异构网络和真实社交网络的实验中,显示出 行研究可以实现社交网络的舆情与态势分析、谣言 错误信息检查的可能性的阈值,定量地衡量出根除 传播溯源、事件追踪、精准搜索等研究。社交网络中 骗局所必需的最小反应。Wang等26]通过对新浪微 的信息传播分析涉及到社会学、传播学、统计学、计 博的信息传播过程进行分析,发现微博社区的信息 算机科学等,一般的研究只是针对几个热门的研究 传播类似于动态模型,故通过数据密集型计算理论 点进行,这里主要介绍目前学术界聚焦的信息传播 对动态模型的算法进行改进,同时对新浪微博数据 建模和社交影响力分析这两个方向。 的各种特征进行了挖掘和建模,并提出了Seinr模 信息传播主要是通过建立信息传播模型和社交 型,取得了较好的效果。 影响力分析等研究社交网络中信息传播的机制。目 在影响力分析方面。主要有基于网络结构的影 前的研究可以归纳为两个模型:解释模型和预测模 响力排序算法、结合网络结构和文本内容的影响力 型。解释模型的目的是推导出潜在的级联传递,得 排序算法、异构信息中的影响力算法等。经典的影 出完整的激活序列。Gomez等[s]提出了基于次模 响力分析算法主要有PageRank算法以及相关的改 函数优化的NETINF迭代算法,利用节点间感染次 进算法,如SimRank和TwitterRank等。Rometro 数的联系来推导出级联传递的结构,并假设被激活 等[1提出了一种基于图的P算法,与HTS算法类 的节点以特定的概率传递给相邻节点。Jons等[1o) 似,为每一个用户转发信息时分配了一个相对影响 扩展了NETINF算法,通过解决最大似然问题来推 力和被动分数:Pal等[列提出了一种非图的话题敏 断出两两节点的传输速率和传递图像。Gomez 感模型,通过对节点的集群排名发现最具影响力和 等[刊继续扩展了NETRATE算法,提出了基于时间 权威性的人:Suo等[28]提出了基于超网及其拓扑结 变化的推理算法INFOPATH,采用随机梯度提供变 构的模型用于分析社交网络中的用户影响力:吴岘 化的网络中的在线结构和时序变化分析。Sadikov 辉等[]提出了一种基于用户行为网络的改进的 等1们基于K树模型提出了一种可以通过少量的完 PageRank算法,称之为TopicLeaderRank算法,将用 整被激活序列估计级联传递中的属性的方法。 户属性、网络拓扑及交互信息等特征综合考虑;Sup- 预测模型的目的是观察并学习过去的传递过程 pa等〔0]考虑到社交网络数据和图像的快速增长造
了现有的随机图结构,同时允许组内连接结构之间 的信息传输。 Amato 等[12] 在超图模型基础上提出 了基于 Flickr 社交多模态信息的超图模型结构模 型,利用超图建立多媒体内容之间、用户和多媒体内 容之间、用户和用户之间的关系,该模型的引入打破 了传统方法只能引入简单的社交关系的限制,为深 入研究社交网络提供了方法。 基于非图结构的研究方面,Bajaj 等[13] 提出了 一种基于 Agent 的模型,该模型把社交网络结构视 为一个外生变量,是一种时间感知的关系模型。 Mi⁃ houb 等[14] 模拟一个主体参与的面对面社交行为, 提出了基于贝叶斯网络多式联运的行为模型,并通 过实验验证了其性能优于马尔可夫模型(HMM)和 隐马尔可夫模型(HSMMS)。 由于在线社交网络结构具有社交关系复杂、内 容多样、结构动态变化、数据多维等特点,所以对其 进行深入研究还需要更多有效的建模和计算方法, 而不是仅局限于图的建模方法。 1.2 社交网络信息传播 社交网络的分享和转发功能使用户可以随时转 发和分享社交信息,其信息数据的传播和扩散的范 围迅速扩大,通过对社交网络中信息的传播机制进 行研究可以实现社交网络的舆情与态势分析、谣言 传播溯源、事件追踪、精准搜索等研究。 社交网络中 的信息传播分析涉及到社会学、传播学、统计学、计 算机科学等,一般的研究只是针对几个热门的研究 点进行,这里主要介绍目前学术界聚焦的信息传播 建模和社交影响力分析这两个方向。 信息传播主要是通过建立信息传播模型和社交 影响力分析等研究社交网络中信息传播的机制。 目 前的研究可以归纳为两个模型:解释模型和预测模 型。 解释模型的目的是推导出潜在的级联传递,得 出完整的激活序列。 Gomez 等[15] 提出了基于次模 函数优化的 NETINF 迭代算法,利用节点间感染次 数的联系来推导出级联传递的结构,并假设被激活 的节点以特定的概率传递给相邻节点。 Jones 等[16] 扩展了 NETINF 算法,通过解决最大似然问题来推 断出 两 两 节 点 的 传 输 速 率 和 传 递 图 像。 Gomez 等[17]继续扩展了 NETRATE 算法,提出了基于时间 变化的推理算法 INFOPATH,采用随机梯度提供变 化的网络中的在线结构和时序变化分析。 Sadikov 等[18]基于 K 树模型提出了一种可以通过少量的完 整被激活序列估计级联传递中的属性的方法。 预测模型的目的是观察并学习过去的传递过程 中时间和空间的变化,来预测社交网络中传递过程 的展开方式,分为基于图和基于非图两类模型。 1)基于图模型。 Romero 等[19] 提出了一个线性 阈值模型来预测传递过程的方法,该方法依赖于信 息病毒式传播及成对用户之间的影响力和接受信息 概率参数等。 Saito 等[20] 提出了 ASIC 和 ASLT 算 法,通过提出异步扩展,放宽传统的基于图形的 IC 和 LT 模型的同步性假设。 Guille 等[21] 将传播过程 建模为异步独立级联过程,提出了 T-BaSIC 模型。 Xu 等[22]提出随时间变化的信息扩散模型。 该模型 主要探讨了随时间变化的信息扩散模型和标准模型 的关系。 2)基于非图模型。 Wen 等[23] 提出了一个随机 节点水平传播分析模型,它可以动态地获取信息传 播时间和捕获人们的行为差异,并可以分析社会参 数对信息传播的影响。 Tuarob 等[24] 提出了一个基 于四种网络信号的 OIA⁃SIRS 模型,用于观察网络节 点信息在不同节点中的传递情况。 Tambuscio 等[25] 提出了一个改进的 SIS 模型用于预测错误信息在社 交网络中的传递规模。 模型依赖于 4 种参数,分别 为传递速率、轻信程度、验证可能性和遗忘速度。 在 同构网、异构网络和真实社交网络的实验中,显示出 错误信息检查的可能性的阈值,定量地衡量出根除 骗局所必需的最小反应。 Wang 等[26] 通过对新浪微 博的信息传播过程进行分析,发现微博社区的信息 传播类似于动态模型,故通过数据密集型计算理论 对动态模型的算法进行改进,同时对新浪微博数据 的各种特征进行了挖掘和建模,并提出了 Seinr 模 型,取得了较好的效果。 在影响力分析方面。 主要有基于网络结构的影 响力排序算法、结合网络结构和文本内容的影响力 排序算法、异构信息中的影响力算法等。 经典的影 响力分析算法主要有 PageRank 算法以及相关的改 进 算 法, 如 SimRank 和 TwitterRank 等。 Rometro 等[19]提出了一种基于图的 IP 算法,与 HITS 算法类 似,为每一个用户转发信息时分配了一个相对影响 力和被动分数;Pal 等[27] 提出了一种非图的话题敏 感模型,通过对节点的集群排名发现最具影响力和 权威性的人;Suo 等[28] 提出了基于超网及其拓扑结 构的模型用于分析社交网络中的用户影响力;吴岘 辉等[29]提出了一种基于用户行为网络的改进的 PageRank 算法,称之为 TopicLeaderRank 算法,将用 户属性、网络拓扑及交互信息等特征综合考虑;Sup⁃ pa 等[30]考虑到社交网络数据和图像的快速增长造 第 6 期 石磊,等:在线社交网络挖掘与搜索技术研究 ·779·
.780 智能系统学报 第11卷 成的计算复杂度较大,提出了一种改进的Brande算 算法,例如图分割、图聚类、图的修剪等方法。 法快速评估大型网络中结点距离,为了便于选择主 图分割的相关工作认为社区的成因是因为网络 结点,采用Louvian算法进行聚类;Yang等[3通过 连边之间存在“强弱连边关系”,主要有两点:“三元 用户社会角色之间的相互联系及在信息传递时的影 闭包”关系下演化出来的、节点之间相互博弈生成 响力调查,提出了一个角色导向信息扩散模型,将社 的。因此在图分割视角下的科学问题就是“如何识 会角色识别和扩散模型集成到一个统一的框架,开 别强弱连边关系”。典型的图分割方法是模块化的 发出基于吉布斯抽样的算法应用于该模型:Subbian 方法和CPM方法。Su等[]提出了一个模糊模块 等[]提出了一个在社会流量中利用主题和时间敏 最大化(FMM)的社区发现方法,该方法利用了广义 感性的方法计算用户的实时影响力。 NEWMAN模块的最大化方法来发现社区,然后采用 上述社交网络的信息传播机制的研究主要集中 树的结构局部最优化发现的社区,实验结果表明通 在经典的传染病模型的利用和扩展上,没考虑从社 过该方法可以高效地发现重叠社区。Kloster等[ 交网络作为一个个体自身去考虑,比如考虑传播过 用一个基于热核的算法来标识社区的起始节点,提 程中用户的心理因素、用户扮演的角色等。在影响 出了一个确定性的局部算法计算社区的产生,并通 力分析方面通常只考虑了社交网络用户的全局影响 过度加权范数的矩阵指数模型来估计社区。AL 力或者局部影响力,而没有根据实际情况综合去考 TUNBEY等3]提出了元启发式模块优化算法,该算 虑,忽视了社交网络的尺度多样性特征。 法通过优化网络模块化的适应度函数来发现重叠社 1.3社区发现 区,取得了较好的效果。ARAB等6提出自下而上 社交网络的核心是参与其中的用户以及用户之 的社区检测方法,采用模块化和NMI的混合方法从 间的关系。因此,学术界通常采用图模型对其进行建 细粒度的社区开始,逐步发现真实社区。Chen 模,其中节点表示参与社交网络中的用户,而边则表 等[别在基于图分割策略的基础上提出了一个局部 示社交网络中用户间的关系,同时利用每条边的权重 菲德勒向量中心算法(LFVC)来发现深度社区。模 表示用户之间关系强度或亲密程度,权值越大表示关 块法方法虽然有不错的效果,但其缺点也很明显,就 系强度或者亲密程度越大,那些内部连接比较紧密的 是存在识别极限的问题。 节点子集合对应的子图叫做社区,各社区节点集合彼 当前图聚类的方法主要是基于谱聚类思想。它 此没有交集的称为非重叠型社区,有交集的称为重叠 关注的科学问题是“节点的空间映射问题”。谱聚 型社区。网络图中包含一个社区的现象称为社区结 类算法是解决网络生成模型的有效的方法,这种概 构。给定一个网络图,找出其社区结构的过程叫做社 率生成模型的理论基础也使得其具有广泛的普适效 区发现。一个典型的社区如图1所示,图中各个点表 应,成为现今社区发现算法的主要研究方向。Zhang 示成千上万的用户,边表示用户之间的关系,每个点 等[8]的研究致力于通过谱聚类算法解决重叠社区 聚集的区域表示一个社区,同时由于每个人可能有多 发现的问题。Gao等[9]通过图聚类的发放解决了 种爱好,不同的社区可以发生重叠。 复杂网络的适用性问题。Mahmood等ao]通过线性 编码来提高算法运行速率的问题,取得良好的效果。 然而,上述的方法都是从建模网络连边密度入手的, 没有实际建模网络连边的生成过程。而且上述方法 认为每个节点仅仅属于一个社区,忽略了社区中存 在的重叠现象,因此,节点表达的思路认为每个节点 都是K个社区的分配的表达。这里的科学问题就 是“如何通过观测网络学习得到这种节点的隐式表 达”。AIROLDI等[4)提出了混合隶属度随机块模 图1典型的社区图 型,这种基于概率统计方法的生成式模型更好地解 Fig.1 Typical community graph 释了节点之间的边是如何生成的以及整个网络是如 社区发现技术可以发现社交网络中相关的拓 何生成的,并通过机器学习方法来学习隐变量得到 扑结构以及兴趣爱好,通常采用不同的数据挖掘算 网络的重叠划分。这种方法对网络的解释性更好, 法来研究,目前的研究方法通常集中在图论的相关 唯一缺点就是优化速度慢,可能会优化到局部最优
成的计算复杂度较大,提出了一种改进的 Brande 算 法快速评估大型网络中结点距离,为了便于选择主 结点,采用 Louvian 算法进行聚类;Yang 等[31] 通过 用户社会角色之间的相互联系及在信息传递时的影 响力调查,提出了一个角色导向信息扩散模型,将社 会角色识别和扩散模型集成到一个统一的框架,开 发出基于吉布斯抽样的算法应用于该模型;Subbian 等[32]提出了一个在社会流量中利用主题和时间敏 感性的方法计算用户的实时影响力。 上述社交网络的信息传播机制的研究主要集中 在经典的传染病模型的利用和扩展上,没考虑从社 交网络作为一个个体自身去考虑,比如考虑传播过 程中用户的心理因素、用户扮演的角色等。 在影响 力分析方面通常只考虑了社交网络用户的全局影响 力或者局部影响力,而没有根据实际情况综合去考 虑,忽视了社交网络的尺度多样性特征。 1.3 社区发现 社交网络的核心是参与其中的用户以及用户之 间的关系。 因此,学术界通常采用图模型对其进行建 模,其中节点表示参与社交网络中的用户,而边则表 示社交网络中用户间的关系,同时利用每条边的权重 表示用户之间关系强度或亲密程度,权值越大表示关 系强度或者亲密程度越大,那些内部连接比较紧密的 节点子集合对应的子图叫做社区,各社区节点集合彼 此没有交集的称为非重叠型社区,有交集的称为重叠 型社区。 网络图中包含一个社区的现象称为社区结 构。 给定一个网络图,找出其社区结构的过程叫做社 区发现。 一个典型的社区如图 1 所示,图中各个点表 示成千上万的用户,边表示用户之间的关系,每个点 聚集的区域表示一个社区,同时由于每个人可能有多 种爱好,不同的社区可以发生重叠。 图 1 典型的社区图 Fig.1 Typical community graph 社区发现技术可以发现社交网络中相关的拓 扑结构以及兴趣爱好,通常采用不同的数据挖掘算 法来研究,目前的研究方法通常集中在图论的相关 算法,例如图分割、图聚类、图的修剪等方法。 图分割的相关工作认为社区的成因是因为网络 连边之间存在“强弱连边关系”,主要有两点:“三元 闭包”关系下演化出来的、节点之间相互博弈生成 的。 因此在图分割视角下的科学问题就是“如何识 别强弱连边关系”。 典型的图分割方法是模块化的 方法和 CPM 方法。 Su 等[33] 提出了一个模糊模块 最大化(FMM)的社区发现方法,该方法利用了广义 NEWMAN 模块的最大化方法来发现社区,然后采用 树的结构局部最优化发现的社区,实验结果表明通 过该方法可以高效地发现重叠社区。 Kloster 等[34] 用一个基于热核的算法来标识社区的起始节点,提 出了一个确定性的局部算法计算社区的产生,并通 过度加权范数的矩阵指数模型来估计社区。 AL⁃ TUNBEY 等[35]提出了元启发式模块优化算法,该算 法通过优化网络模块化的适应度函数来发现重叠社 区,取得了较好的效果。 ARAB 等[36] 提出自下而上 的社区检测方法,采用模块化和 NMI 的混合方法从 细粒 度 的 社 区 开 始, 逐 步 发 现 真 实 社 区。 Chen 等[37]在基于图分割策略的基础上提出了一个局部 菲德勒向量中心算法(LFVC)来发现深度社区。 模 块法方法虽然有不错的效果,但其缺点也很明显,就 是存在识别极限的问题。 当前图聚类的方法主要是基于谱聚类思想。 它 关注的科学问题是“节点的空间映射问题”。 谱聚 类算法是解决网络生成模型的有效的方法,这种概 率生成模型的理论基础也使得其具有广泛的普适效 应,成为现今社区发现算法的主要研究方向。 Zhang 等[38]的研究致力于通过谱聚类算法解决重叠社区 发现的问题。 Gao 等[39] 通过图聚类的发放解决了 复杂网络的适用性问题。 Mahmood 等[40] 通过线性 编码来提高算法运行速率的问题,取得良好的效果。 然而,上述的方法都是从建模网络连边密度入手的, 没有实际建模网络连边的生成过程。 而且上述方法 认为每个节点仅仅属于一个社区,忽略了社区中存 在的重叠现象,因此,节点表达的思路认为每个节点 都是 K 个社区的分配的表达。 这里的科学问题就 是“如何通过观测网络学习得到这种节点的隐式表 达”。 AIROLDI 等[41] 提出了混合隶属度随机块模 型,这种基于概率统计方法的生成式模型更好地解 释了节点之间的边是如何生成的以及整个网络是如 何生成的,并通过机器学习方法来学习隐变量得到 网络的重叠划分。 这种方法对网络的解释性更好, 唯一缺点就是优化速度慢,可能会优化到局部最优。 ·780· 智 能 系 统 学 报 第 11 卷
第6期 石磊,等:在线社交网络挖掘与搜索技术研究 .781 1.4情感分析 1.5社交网络事件监测 情感计算是1997年由MIT的Picard教授提出 社交网络事件监测的目标是对社交内容中的事 的,情感计算是与情感相关,来源于情感或能够对情 件和热点话题的自动识别和已知话题的持续跟踪。 感施加影响的计算,而随着社交网络的发展,基于社 事件监测的基础方法为计算文档之间的相似性。具 交网络的情感分析再次成为学术界的研究热点,通 体方法是预先设置关键词或者突发词,然后计算词 过情感分析可以对社交网络搜索提供更加精确的理 与词之间相似度来监测事件,文档之间相似性常用 解,提高搜索准确度。 度量方法为夹角余弦,如式(1)所示: 目前学术界基于情感分析的研究方法主要 集中在社交网络文本的情感词方法。该方法主 含a× sim(D,D,)cos 0= (1) 要是通过人工整理出程度副词表、否定词表和社 交网络中默认表情符号的褒贬分类,然后在情感 } 词语计算的基础上,考虑上下文中否定词和程度 式中:sim(D1,D2)表示相似度函数,D,和D2表示文 词对修饰情感词语的情感倾向和情感强度的影 档内容,而A,和B,表示两个n维向量。 响,同时也设定规则计算表情符号对一条微博的 该方法仅适用于静态文本语料库分析的传统话 情感倾向判断的作用[42]。Marquez等[43]使用相 题监测技术,而社交网络中不但存在大量的静态文 关的情感词典从不同的情绪特征维度出发来提 本,同时也存在跨媒体内容,这就涉及语义分析相关 升微博情感分类的精度:H山等〔4)通过加入社会 内容,因此这种简单计算文本相似性的方法无法直 学的方法来提高情感分析的准确性,该方法结合 接适用于在线社交网络产生的跨媒体的海量数据 了情绪感染理论到监督学习的过程,并利用稀疏 中。Kaleel等[so]利用词频逆序文档频率和局部敏 学习实现了微博文本中的去噪;Debashis等[4s]通 感哈希的方法实现热点事件发现,并通过聚类的方 过用户社交网络中的对话,确定用户的情绪,通 法提高事件监测的效率。Andrea等[s)提出了一个 过一个新的词汇字典和情感的罗素模型识别情 基于微博交通事件实时监测系统,根据微博标签和 感,并利用隐含狄利克雷分配(LDA)生成模型建 预设的搜索条件,利用支持向量机算法对事件进行 立主题和情感分布:Sixto等〔46]利用BM25排序 分类,最后实现事件监测。Li等提出了基于 函数与支持向量机相结合的监督学习方法来对 Spak的分布式微博突发事件监测增量时间主题模 Twitter进行情感分析,具有较好的效果。 型,该模型能够利用短文本数据集和时间信息监测 随着社交网络和移动社交APP的发展,社交网 突发事件,这种分布式的设计大大提高了监测效率。 络中其他媒体如图片、视频、音乐等数据急聚增多, Zhang等[s)提出了突发事件监测和趋势预测的方 对社交网络中图像、视频的情感分析等相关技术的 法。该方法利用词频和用户的社交关系等信息进行 研究也成为一个重要方向。深度学习的兴起对跨媒 事件监测,并提出了一个扩散模型来预测事件的流 体数据分析具有重要意义,You等[)利用微调的深 行趋势。该方法解决了大多数现有的方法只专注于 度卷积神经网络构架训练图片情感分析模型,相比 事件监测,但忽略了预测未来趋势的问题。Zou 传统的方法具有较好的效果:Chao等[4s]利用长短 等[]基于图的模型提出了一个监测社会事件的框 期记忆神经循环网络构架和时间池技术对音频和视 架LTT,该框架可以捕捉内容、时间、地点和社交信 频情感分析:Poia等49]针对跨媒体的情感分析进 息,具有良好的适用性。Pohl等[s]提出了社交网络 行研究并取得了一定的进展,其主要利用了各自领 事件自动监测方法,可以高效地实现对Flicker和 域的情感分析方法,然后通过特征级和决策级的特 YouTube的社交事件和子事件进行监测。上述方法 征融合来训练情感分析模型,其结果较之单一模态 在事件监测方面都取得了良好的效果,但是上述方 的情感分析方法精度更高。 法侧重于社交网络的文本内容的事件监测,而忽略 目前的情感分析方法大多是通过简单的使用一 了社交相关内容。Gule等[s]提出了异常事件监测 些情感词等基于文本的方法,而忽略了用户用来增 方法,该方法主要利用动态链接的创作频率。用户 强情感的图像及视频等内容,这样很难符合真实社 动态地在微博上插入需要监测重要事件,并估计对 交网络中用户复杂的情感表示,将为社交网络情感 人群的影响程度。Zhang等s提出了基于突发词权 分析带来新的挑战。 重的时间窗口内提取突发词方法,然后结合层次聚
1.4 情感分析 情感计算是 1997 年由 MIT 的 Picard 教授提出 的,情感计算是与情感相关,来源于情感或能够对情 感施加影响的计算,而随着社交网络的发展,基于社 交网络的情感分析再次成为学术界的研究热点,通 过情感分析可以对社交网络搜索提供更加精确的理 解,提高搜索准确度。 目前学术界基于情感分析的研究方法主要 集中在社交网络文本的情感词方法。 该方法主 要是通过人工整理出程度副词表、否定词表和社 交网络中默认表情符号的褒贬分类,然后在情感 词语计算的基础上,考虑上下文中否定词和程度 词对修饰情感词语的情感倾向和情感强度的影 响,同时也设定规则计算表情符号对一条微博的 情感倾向判断的作用[ 42] 。 Marquez 等[ 43] 使用相 关的情感词典从不同的情绪特征维度出发来提 升微博情感分类的精度;Hu 等[ 44] 通过加入社会 学的方法来提高情感分析的准确性,该方法结合 了情绪感染理论到监督学习的过程,并利用稀疏 学习实现了微博文本中的去噪;Debashis 等[ 45] 通 过用户社交网络中的对话,确定用户的情绪,通 过一个新的词汇字典和情感的罗素模型识别情 感,并利用隐含狄利克雷分配( LDA) 生成模型建 立主题和情感分布; Sixto 等[ 46] 利用 BM25 排序 函数与支持向量机相结合的监督学习方法来对 Twitter 进行情感分析,具有较好的效果。 随着社交网络和移动社交 APP 的发展,社交网 络中其他媒体如图片、视频、音乐等数据急聚增多, 对社交网络中图像、视频的情感分析等相关技术的 研究也成为一个重要方向。 深度学习的兴起对跨媒 体数据分析具有重要意义,You 等[47] 利用微调的深 度卷积神经网络构架训练图片情感分析模型,相比 传统的方法具有较好的效果;Chao 等[48] 利用长短 期记忆神经循环网络构架和时间池技术对音频和视 频情感分析;Poria 等[49] 针对跨媒体的情感分析进 行研究并取得了一定的进展,其主要利用了各自领 域的情感分析方法,然后通过特征级和决策级的特 征融合来训练情感分析模型,其结果较之单一模态 的情感分析方法精度更高。 目前的情感分析方法大多是通过简单的使用一 些情感词等基于文本的方法,而忽略了用户用来增 强情感的图像及视频等内容,这样很难符合真实社 交网络中用户复杂的情感表示,将为社交网络情感 分析带来新的挑战。 1.5 社交网络事件监测 社交网络事件监测的目标是对社交内容中的事 件和热点话题的自动识别和已知话题的持续跟踪。 事件监测的基础方法为计算文档之间的相似性。 具 体方法是预先设置关键词或者突发词,然后计算词 与词之间相似度来监测事件,文档之间相似性常用 度量方法为夹角余弦,如式(1)所示: sim D1 ,D2 ( ) = cos θ = ∑ n i = 1 Ai × Bi ( ) ∑ n i = 1 A 2 i × ∑ n i = 1 B 2 i (1) 式中:sim(D1 ,D2 )表示相似度函数,D1 和 D2 表示文 档内容,而Ai和Bi表示两个 n 维向量。 该方法仅适用于静态文本语料库分析的传统话 题监测技术,而社交网络中不但存在大量的静态文 本,同时也存在跨媒体内容,这就涉及语义分析相关 内容,因此这种简单计算文本相似性的方法无法直 接适用于在线社交网络产生的跨媒体的海量数据 中。 Kaleel 等[50] 利用词频逆序文档频率和局部敏 感哈希的方法实现热点事件发现,并通过聚类的方 法提高事件监测的效率。 Andrea 等[51] 提出了一个 基于微博交通事件实时监测系统,根据微博标签和 预设的搜索条件,利用支持向量机算法对事件进行 分类,最后实现事件监测。 Li 等[52] 提出了基于 Spark 的分布式微博突发事件监测增量时间主题模 型,该模型能够利用短文本数据集和时间信息监测 突发事件,这种分布式的设计大大提高了监测效率。 Zhang 等[53]提出了突发事件监测和趋势预测的方 法。 该方法利用词频和用户的社交关系等信息进行 事件监测,并提出了一个扩散模型来预测事件的流 行趋势。 该方法解决了大多数现有的方法只专注于 事件监测,但忽略了预测未来趋势的问题。 Zhou 等[54]基于图的模型提出了一个监测社会事件的框 架 LTT,该框架可以捕捉内容、时间、地点和社交信 息,具有良好的适用性。 Pohl 等[55]提出了社交网络 事件自动监测方法,可以高效地实现对 Flicker 和 YouTube 的社交事件和子事件进行监测。 上述方法 在事件监测方面都取得了良好的效果,但是上述方 法侧重于社交网络的文本内容的事件监测,而忽略 了社交相关内容。 Guille 等[56]提出了异常事件监测 方法,该方法主要利用动态链接的创作频率。 用户 动态地在微博上插入需要监测重要事件,并估计对 人群的影响程度。 Zhang 等[57]提出了基于突发词权 重的时间窗口内提取突发词方法,然后结合层次聚 第 6 期 石磊,等:在线社交网络挖掘与搜索技术研究 ·781·