当前位置：和泉文库 > 电气与自动化 > 浏览文档

【综述】在线社交网络挖掘与搜索技术研究

文件格式：PDF，文件大小：1.48MB，售价：4.28元

文档详细内容（约11页）

第11卷第6期智能系统学报 Vol.11 No.6 2016年12月 CAAI Transactions on Intelligent Systems Dec.2016 D0I:10.11992/is.201612007 网络出版地址：http://www.cnki.net/kcms/detail,/23.1538.TP.20170111.1619.002.html 在线社交网络挖掘与搜索技术研究石磊，杜军平1，周亦鹏2，叶杭，赖金财，何奕江 (1.北京邮电大学智能通信软件与多蝶体北京市重点实验室，北京100876；2.北京工商大学计算机与信息工程学院，北京100048) 摘要：随着在线社交网络的蓬勃发展，传统的数据挖掘的和搜索方法已经不能完全适用于Wb2.0时代的社交网络。社交网络具有社交关系复杂、数据量大、动态更新、数据多模态等特点，给数据挖掘和搜索的研究来了巨大的挑战。因此，研究基于社交网络挖掘和搜索的新方法成为学术界和工业界的一项新任务。文章全面分析了社交网络发展的基本情况和存在的问题，阐述了社交网络结构建模、信息传播机制、社区发现、情感分析、事件监测及社交网络搜索排序技术的主要研究工作，并基于已有研究工作对社交网络挖掘和网络搜索技术进行了分析和展望。关键词：社交网络：数据挖掘：搜索：社区发现：信息传播中图分类号：TP393文献标志码：A文章编号：1673-4785(2016)06-0777-11 中文引用格式：石磊，杜军平，周亦鹏，等.在线杜交网络挖掘与搜索技术研究[J].智能系统学报，2016,11(6)：777-787. 英文引用格式：SHI Lei,DU Junping,ZHO0 Yipeng,ctal.A survey on online social network mining and search[J].CAAI Trans-- actions on Intelligent Systems,2016,11(6):777-787. A survey on online social network mining and search SHI Lei',DU Junping',ZHOU Yipeng?,YE Hang',LAI Jincai',HE Yijiang' (1.Beijing Key Laboratory of Intelligent Telecommunications Software and Multimedia,Beijing University of Posts and Telecommunica- tions,Beijing 100876,China;2.School of Computer Science and Information Engineering,Beijing Technology and Business Universi- ty,Beijing 100048,China) Abstract:With the vigorous development of online social networks,the traditional technologies of data mining and searching cannot solve the problems of social networks in the Web 2.0 era.Social networks,accompanied by com- plex social relationships,large amounts of data,dynamic updates,multimodal data,etc.have brought great chal- lenge to the study of data mining and searching.Therefore,the research of novel algorithms of social network mining and searching has become a new task in both academia and industry.This paper summarized the basic situation and problems of social networks,and analyzed structural modeling techniques,information transmission mechanisms, community detection,sentiment analysis,event detection and search ranking techniques of social networks.Based on the analysis of previous researches,the prospect of social network data mining and search technologies was fore- casted in this paper. Keywords:social networks;data mining;search;community detection;information transmission 在线社交网络也称社交网络服务(SNS)山，SNS是由网络上每个独立存在的个体以及个体之间的相互关系所构成的一个社会化媒体网络。随着这收稿日期：2016-12-06. 种新型网络的出现，把以前网络仅仅是用户消耗和基金项目：国家自然科学基金重点项目(61532006)：国家自然科学基金重大国际合作项目(61320106006). 获取信息，变成了一个人人参与、人人可以产生信通信作者：杜军平.E-mail:junpinge@126.com 息，而且用户之间可以进行交流和互动的网络。目

第１１卷第６期智能系统学报Ｖｏｌ．１１ №．６２０１６年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６１２００７网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０１１１．１６１９．００２．ｈｔｍｌ在线社交网络挖掘与搜索技术研究石磊１，杜军平１，周亦鹏２，叶杭１，赖金财１，何奕江１（１．北京邮电大学智能通信软件与多媒体北京市重点实验室，北京１００８７６；２．北京工商大学计算机与信息工程学院，北京１０００４８）摘要：随着在线社交网络的蓬勃发展，传统的数据挖掘的和搜索方法已经不能完全适用于Ｗｅｂ２．０时代的社交网络。社交网络具有社交关系复杂、数据量大、动态更新、数据多模态等特点，给数据挖掘和搜索的研究来了巨大的挑战。因此，研究基于社交网络挖掘和搜索的新方法成为学术界和工业界的一项新任务。文章全面分析了社交网络发展的基本情况和存在的问题，阐述了社交网络结构建模、信息传播机制、社区发现、情感分析、事件监测及社交网络搜索排序技术的主要研究工作，并基于已有研究工作对社交网络挖掘和网络搜索技术进行了分析和展望。关键词：社交网络；数据挖掘；搜索；社区发现；信息传播中图分类号：ＴＰ３９３文献标志码：Ａ文章编号：１６７３－４７８５（２０１６）０６－０７７７－１１中文引用格式：石磊，杜军平，周亦鹏，等．在线社交网络挖掘与搜索技术研究［Ｊ］．智能系统学报，２０１６，１１（６）：７７７－７８７．英文引用格式：ＳＨＩＬｅｉ，ＤＵＪｕｎｐｉｎｇ，ＺＨＯＵＹｉｐｅｎｇ，ｅｔａｌ．Ａｓｕｒｖｅｙｏｎｏｎｌｉｎｅｓｏｃｉａｌｎｅｔｗｏｒｋｍｉｎｉｎｇａｎｄｓｅａｒｃｈ［Ｊ］．ＣＡＡＩＴｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（６）：７７７－７８７．ＡｓｕｒｖｅｙｏｎｏｎｌｉｎｅｓｏｃｉａｌｎｅｔｗｏｒｋｍｉｎｉｎｇａｎｄｓｅａｒｃｈＳＨＩＬｅｉ１，ＤＵＪｕｎｐｉｎｇ１，ＺＨＯＵＹｉｐｅｎｇ２，ＹＥＨａｎｇ１，ＬＡＩＪｉｎｃａｉ１，ＨＥＹｉｊｉａｎｇ１（１．ＢｅｉｊｉｎｇＫｅｙＬａｂｏｒａｔｏｒｙｏｆＩｎｔｅｌｌｉｇｅｎｔＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＳｏｆｔｗａｒｅａｎｄＭｕｌｔｉｍｅｄｉａ，ＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＰｏｓｔｓａｎｄＴｅｌｅｃｏｍｍｕｎｉｃａ⁃ ｔｉｏｎｓ，Ｂｅｉｊｉｎｇ１００８７６，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＩｎｆｏｒｍａｔｉｏｎＥｎｇｉｎｅｅｒｉｎｇ，ＢｅｉｊｉｎｇＴｅｃｈｎｏｌｏｇｙａｎｄＢｕｓｉｎｅｓｓＵｎｉｖｅｒｓｉ⁃ ｔｙ，Ｂｅｉｊｉｎｇ１０００４８，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｖｉｇｏｒｏｕｓｄｅｖｅｌｏｐｍｅｎｔｏｆｏｎｌｉｎｅｓｏｃｉａｌｎｅｔｗｏｒｋｓ，ｔｈｅｔｒａｄｉｔｉｏｎａｌｔｅｃｈｎｏｌｏｇｉｅｓｏｆｄａｔａｍｉｎｉｎｇａｎｄｓｅａｒｃｈｉｎｇｃａｎｎｏｔｓｏｌｖｅｔｈｅｐｒｏｂｌｅｍｓｏｆｓｏｃｉａｌｎｅｔｗｏｒｋｓｉｎｔｈｅＷｅｂ２．０ｅｒａ．Ｓｏｃｉａｌｎｅｔｗｏｒｋｓ，ａｃｃｏｍｐａｎｉｅｄｂｙｃｏｍ⁃ ｐｌｅｘｓｏｃｉａｌｒｅｌａｔｉｏｎｓｈｉｐｓ，ｌａｒｇｅａｍｏｕｎｔｓｏｆｄａｔａ，ｄｙｎａｍｉｃｕｐｄａｔｅｓ，ｍｕｌｔｉｍｏｄａｌｄａｔａ，ｅｔｃ．ｈａｖｅｂｒｏｕｇｈｔｇｒｅａｔｃｈａｌ⁃ ｌｅｎｇｅｔｏｔｈｅｓｔｕｄｙｏｆｄａｔａｍｉｎｉｎｇａｎｄｓｅａｒｃｈｉｎｇ．Ｔｈｅｒｅｆｏｒｅ，ｔｈｅｒｅｓｅａｒｃｈｏｆｎｏｖｅｌａｌｇｏｒｉｔｈｍｓｏｆｓｏｃｉａｌｎｅｔｗｏｒｋｍｉｎｉｎｇａｎｄｓｅａｒｃｈｉｎｇｈａｓｂｅｃｏｍｅａｎｅｗｔａｓｋｉｎｂｏｔｈａｃａｄｅｍｉａａｎｄｉｎｄｕｓｔｒｙ．Ｔｈｉｓｐａｐｅｒｓｕｍｍａｒｉｚｅｄｔｈｅｂａｓｉｃｓｉｔｕａｔｉｏｎａｎｄｐｒｏｂｌｅｍｓｏｆｓｏｃｉａｌｎｅｔｗｏｒｋｓ，ａｎｄａｎａｌｙｚｅｄｓｔｒｕｃｔｕｒａｌｍｏｄｅｌｉｎｇｔｅｃｈｎｉｑｕｅｓ，ｉｎｆｏｒｍａｔｉｏｎｔｒａｎｓｍｉｓｓｉｏｎｍｅｃｈａｎｉｓｍｓ，ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎ，ｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ，ｅｖｅｎｔｄｅｔｅｃｔｉｏｎａｎｄｓｅａｒｃｈｒａｎｋｉｎｇｔｅｃｈｎｉｑｕｅｓｏｆｓｏｃｉａｌｎｅｔｗｏｒｋｓ．Ｂａｓｅｄｏｎｔｈｅａｎａｌｙｓｉｓｏｆｐｒｅｖｉｏｕｓｒｅｓｅａｒｃｈｅｓ，ｔｈｅｐｒｏｓｐｅｃｔｏｆｓｏｃｉａｌｎｅｔｗｏｒｋｄａｔａｍｉｎｉｎｇａｎｄｓｅａｒｃｈｔｅｃｈｎｏｌｏｇｉｅｓｗａｓｆｏｒｅ⁃ ｃａｓｔｅｄｉｎｔｈｉｓｐａｐｅｒ．Ｋｅｙｗｏｒｄｓ：ｓｏｃｉａｌｎｅｔｗｏｒｋｓ；ｄａｔａｍｉｎｉｎｇ；ｓｅａｒｃｈ；ｃｏｍｍｕｎｉｔｙｄｅｔｅｃｔｉｏｎ；ｉｎｆｏｒｍａｔｉｏｎｔｒａｎｓｍｉｓｓｉｏｎ收稿日期：２０１６－１２－０６．基金项目：国家自然科学基金重点项目（６１５３２００６）；国家自然科学基金重大国际合作项目（６１３２０１０６００６）．通信作者：杜军平．Ｅ⁃ｍａｉｌ：ｊｕｎｐｉｎｇｄｕ＠１２６．ｃｏｍ．在线社交网络也称社交网络服务（ＳＮＳ）［１］，ＳＮＳ是由网络上每个独立存在的个体以及个体之间的相互关系所构成的一个社会化媒体网络。随着这种新型网络的出现，把以前网络仅仅是用户消耗和获取信息，变成了一个人人参与、人人可以产生信息，而且用户之间可以进行交流和互动的网络。目

·778 智能系统学报第11卷前存在的社交网络形式可以分为5类)：即时通信发现、情感分析、事件监测、搜索索引及排序等方面类，如腾讯QQ、MSN、微信等：在线社交平台类，如对目前社交网络挖掘和搜索相关研究的现状进行了 FaceBook、LinkedIn、人人网等：社交微博平台类，如总结和论述，并对社交网络挖掘和搜索的发展趋势 Twitter、新浪微博、腾讯微博等：标签协同平台类，如进行了展望。 Delicious、Flickr等；科研分享与社交平台，如Re- 1在线社交网络挖掘的关键技术 searchGate、学术圈等。用户通过这些平台可以在线交流、交换信息、分享资源、新闻转发和评论等。另社交网络挖掘作为最近几年热门的研究和应外，随着社交网络的出现，传统的新闻门户网站或各用，涉及多种理论和技术，包括了数理统计、数据挖大传统媒体的官方网站也都提供了基于社交网络的掘技术、矩阵论等。分享和转发功能，方便用户快速分享新闻或电子期数据挖掘[)一般是指从大量的数据中通过算刊到相关社交网络平台。法搜索隐藏于其中信息的过程。数据挖掘通常与计随着在线社交网络的蓬勃发展，数据也在快算机科学有关，并通过统计、在线分析处理、情报检速增长，FaceBook有超过16亿的活跃用户，而中索、机器学习、专家系统和模式识别等诸多方法来实国的新浪微博也有超过5亿的活跃用户。社交现。而社交网络分析与挖掘则是通过数据挖掘的方网络正日益影响着用户的生活习惯，成为用户生法从社交网络数据中提取信息的过程[，目前在社活中的一部分。社交网络相比传统网络体现出交网络分析与挖掘方向主要的研究有社交网络结构更加复杂的综合特征，使得传统的挖掘理论和模建模、信息传播研究、社区发现、情感分析及事件监型难以描述社交网络中的用户行为方式。只有测等。通过有效的挖掘社交网络中的文本、图片等多种 1.1社交网络结构建模信息，分析数据中隐含的特有属性、研究用户的社交网络结构建模是社交网络研究的基础，采用行为特征，才可以弥补传统挖掘和搜索方法在社结构化方法和数学方法来研究社交网络的内部各种交网络中的不足，实现满足用户个性化需求的智特征和机制。基于社交网络研究的第一步是对其结慧化的搜索。当前在线社交网络挖掘中最具有构进行建模刀，目的是对其内部结构和演化规律进代表性的研究方向包括社交网络结构建模、信息行深化。一般对社交网络结构建模通过统计学习方传播、社区发现、情感分析、事件监测等。法来构造，然后分析社交网络的分布规律、关系紧密在海量数据中找到自己想要的或者感兴趣的内程度、相识关系的紧密程度，某个用户对于网络中其容和信息，通常被称之为信息搜索，它是指信息按一他用户对之间传递消息的重要程度等诸多统计特性。定的方式组织起来，并根据信息用户的需要找出有社交网络建模由最初的ER随机图模型到小世关的信息的过程和技术[)。信息搜索主要使用传界、无标度模型、六度分割等。Moreno等首先将图统的搜索引擎来进行，采用的方法包括基于Wb1.0 论的方法引入了人类社交关系分析中，随着技术的静态网页，通过BM25等算法计算内容的相似性。发展，研究人员发现ER随机图已经不能解决重尾在排序方面主要采用了传统的谷歌PageRank和分布等问题，因此能够解决这些问题的参数特征小 HITS算法。但这种传统的搜索算法对Wb2.0的世界网络被提出，这是一个基于统计的模型。应用不能很好地支持，同时没有考虑社交网络的5V Handcock等提出的隐含位置聚类模型，Watts等分性[4)。社交网络搜索区别于一般搜索的一个重要析和验证了“六度分隔”和小世界模型劉。Kumar 特点是除了对内容的搜索之外，还可以提供对特定等研究了在线社区的路径长度问题，其长度要大于对象如个人、群体、社区的搜索，这就需要挖掘社交 “六度分隔”。Harary等提出一种有向图模型来表网络中社交关系、社区、事件传播、情感分析等内容示社交网络中的单向关系[劉。H$U等)通过应用来弥补社交网络内容搜索的缺陷，因此如何围绕用可变的社会向量时钟和权重变化，构建了一个权重户和网页作为中心，实现如搜索用户、社会关系、社耦合的定向链路生成算法，对社交网络群体结构建区发现、事件来源等社会化层面的搜索，并通过理解模。Domg等[o通过图模型研究了社交网络中个人用户的意图等实现智慧化搜索是社交网络搜索研究和相关社会现象之间的关系，实现人口统计推断、链的关键。接推荐、社会影响预测等应用。Slaughter等t提出本文主要从社交网络结构建模、信息传播、社区基于贝叶斯多层次模型的社交网络结构模型，拓展

前存在的社交网络形式可以分为５类［２］：即时通信类，如腾讯ＱＱ、ＭＳＮ、微信等；在线社交平台类，如ＦａｃｅＢｏｏｋ、ＬｉｎｋｅｄＩｎ、人人网等；社交微博平台类，如Ｔｗｉｔｔｅｒ、新浪微博、腾讯微博等；标签协同平台类，如Ｄｅｌｉｃｉｏｕｓ、Ｆｌｉｃｋｒ等；科研分享与社交平台，如Ｒｅ⁃ ｓｅａｒｃｈＧａｔｅ、学术圈等。用户通过这些平台可以在线交流、交换信息、分享资源、新闻转发和评论等。另外，随着社交网络的出现，传统的新闻门户网站或各大传统媒体的官方网站也都提供了基于社交网络的分享和转发功能，方便用户快速分享新闻或电子期刊到相关社交网络平台。随着在线社交网络的蓬勃发展，数据也在快速增长，ＦａｃｅＢｏｏｋ有超过１６亿的活跃用户，而中国的新浪微博也有超过５亿的活跃用户。社交网络正日益影响着用户的生活习惯，成为用户生活中的一部分。社交网络相比传统网络体现出更加复杂的综合特征，使得传统的挖掘理论和模型难以描述社交网络中的用户行为方式。只有通过有效的挖掘社交网络中的文本、图片等多种信息，分析数据中隐含的特有属性、研究用户的行为特征，才可以弥补传统挖掘和搜索方法在社交网络中的不足，实现满足用户个性化需求的智慧化的搜索。当前在线社交网络挖掘中最具有代表性的研究方向包括社交网络结构建模、信息传播、社区发现、情感分析、事件监测等。在海量数据中找到自己想要的或者感兴趣的内容和信息，通常被称之为信息搜索，它是指信息按一定的方式组织起来，并根据信息用户的需要找出有关的信息的过程和技术［３］。信息搜索主要使用传统的搜索引擎来进行，采用的方法包括基于Ｗｅｂ１．０静态网页，通过ＢＭ２５等算法计算内容的相似性。在排序方面主要采用了传统的谷歌ＰａｇｅＲａｎｋ和ＨＩＴＳ算法。但这种传统的搜索算法对Ｗｅｂ２．０的应用不能很好地支持，同时没有考虑社交网络的５Ｖ性［４］。社交网络搜索区别于一般搜索的一个重要特点是除了对内容的搜索之外，还可以提供对特定对象如个人、群体、社区的搜索，这就需要挖掘社交网络中社交关系、社区、事件传播、情感分析等内容来弥补社交网络内容搜索的缺陷，因此如何围绕用户和网页作为中心，实现如搜索用户、社会关系、社区发现、事件来源等社会化层面的搜索，并通过理解用户的意图等实现智慧化搜索是社交网络搜索研究的关键。本文主要从社交网络结构建模、信息传播、社区发现、情感分析、事件监测、搜索索引及排序等方面对目前社交网络挖掘和搜索相关研究的现状进行了总结和论述，并对社交网络挖掘和搜索的发展趋势进行了展望。１在线社交网络挖掘的关键技术社交网络挖掘作为最近几年热门的研究和应用，涉及多种理论和技术，包括了数理统计、数据挖掘技术、矩阵论等。数据挖掘［５］一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、专家系统和模式识别等诸多方法来实现。而社交网络分析与挖掘则是通过数据挖掘的方法从社交网络数据中提取信息的过程［６］，目前在社交网络分析与挖掘方向主要的研究有社交网络结构建模、信息传播研究、社区发现、情感分析及事件监测等。１．１社交网络结构建模社交网络结构建模是社交网络研究的基础，采用结构化方法和数学方法来研究社交网络的内部各种特征和机制。基于社交网络研究的第一步是对其结构进行建模［７］，目的是对其内部结构和演化规律进行深化。一般对社交网络结构建模通过统计学习方法来构造，然后分析社交网络的分布规律、关系紧密程度、相识关系的紧密程度，某个用户对于网络中其他用户对之间传递消息的重要程度等诸多统计特性。社交网络建模由最初的ＥＲ随机图模型到小世界、无标度模型、六度分割等。Ｍｏｒｅｎｏ等首先将图论的方法引入了人类社交关系分析中，随着技术的发展，研究人员发现ＥＲ随机图已经不能解决重尾分布等问题，因此能够解决这些问题的参数特征小世界网络被提出，这是一个基于统计的模型。Ｈａｎｄｃｏｃｋ等提出的隐含位置聚类模型，Ｗａｔｔｓ等分析和验证了“六度分隔” 和小世界模型［８］。Ｋｕｍａｒ等研究了在线社区的路径长度问题，其长度要大于 “六度分隔”。Ｈａｒａｒｙ等提出一种有向图模型来表示社交网络中的单向关系［８］。ＨＳＵ等［９］通过应用可变的社会向量时钟和权重变化，构建了一个权重耦合的定向链路生成算法，对社交网络群体结构建模。Ｄｏｎｇ等［１０］通过图模型研究了社交网络中个人和相关社会现象之间的关系，实现人口统计推断、链接推荐、社会影响预测等应用。Ｓｌａｕｇｈｔｅｒ等［１１］提出基于贝叶斯多层次模型的社交网络结构模型，拓展 ·７７８· 智能系统学报第１１卷

第6期石磊，等：在线社交网络挖掘与搜索技术研究 ·779. 了现有的随机图结构，同时允许组内连接结构之间中时间和空间的变化，来预测社交网络中传递过程的信息传输。Amato等12]在超图模型基础上提出的展开方式，分为基于图和基于非图两类模型。了基于Fikr社交多模态信息的超图模型结构模 1)基于图模型。Romero等)提出了一个线性型，利用超图建立多媒体内容之间、用户和多媒体内阈值模型来预测传递过程的方法，该方法依赖于信容之间、用户和用户之间的关系，该模型的引入打破息病毒式传播及成对用户之间的影响力和接受信息了传统方法只能引入简单的社交关系的限制，为深概率参数等。Saito等[2o]提出了ASIC和ASLT算入研究社交网络提供了方法。法，通过提出异步扩展，放宽传统的基于图形的IC 基于非图结构的研究方面，Bajaj等]提出了和LT模型的同步性假设。Guille等2将传播过程一种基于Agent的模型，该模型把社交网络结构视建模为异步独立级联过程，提出了T-BaSIC模型。为一个外生变量，是一种时间感知的关系模型。M- Xu等[2提出随时间变化的信息扩散模型。该模型 houb等[4模拟一个主体参与的面对面社交行为，主要探讨了随时间变化的信息扩散模型和标准模型提出了基于贝叶斯网络多式联运的行为模型，并通的关系。过实验验证了其性能优于马尔可夫模型(HMM)和 2)基于非图模型。Wen等[2)提出了一个随机隐马尔可夫模型(HSMMS)。节点水平传播分析模型，它可以动态地获取信息传由于在线社交网络结构具有社交关系复杂、内播时间和捕获人们的行为差异，并可以分析社会参容多样、结构动态变化、数据多维等特点，所以对其数对信息传播的影响。Tuarob等[2)]提出了一个基进行深入研究还需要更多有效的建模和计算方法，于四种网络信号的OIA-SRS模型，用于观察网络节而不是仅局限于图的建模方法。点信息在不同节点中的传递情况。Tambuscio等() 1.2社交网络信息传播提出了一个改进的SS模型用于预测错误信息在社社交网络的分享和转发功能使用户可以随时转交网络中的传递规模。模型依赖于4种参数，分别发和分享社交信息，其信息数据的传播和扩散的范为传递速率、轻信程度、验证可能性和遗忘速度。在围迅速扩大，通过对社交网络中信息的传播机制进同构网、异构网络和真实社交网络的实验中，显示出行研究可以实现社交网络的舆情与态势分析、谣言错误信息检查的可能性的阈值，定量地衡量出根除传播溯源、事件追踪、精准搜索等研究。社交网络中骗局所必需的最小反应。Wang等26]通过对新浪微的信息传播分析涉及到社会学、传播学、统计学、计博的信息传播过程进行分析，发现微博社区的信息算机科学等，一般的研究只是针对几个热门的研究传播类似于动态模型，故通过数据密集型计算理论点进行，这里主要介绍目前学术界聚焦的信息传播对动态模型的算法进行改进，同时对新浪微博数据建模和社交影响力分析这两个方向。的各种特征进行了挖掘和建模，并提出了Seinr模信息传播主要是通过建立信息传播模型和社交型，取得了较好的效果。影响力分析等研究社交网络中信息传播的机制。目在影响力分析方面。主要有基于网络结构的影前的研究可以归纳为两个模型：解释模型和预测模响力排序算法、结合网络结构和文本内容的影响力型。解释模型的目的是推导出潜在的级联传递，得排序算法、异构信息中的影响力算法等。经典的影出完整的激活序列。Gomez等[s]提出了基于次模响力分析算法主要有PageRank算法以及相关的改函数优化的NETINF迭代算法，利用节点间感染次进算法，如SimRank和TwitterRank等。Rometro 数的联系来推导出级联传递的结构，并假设被激活等[1提出了一种基于图的P算法，与HTS算法类的节点以特定的概率传递给相邻节点。Jons等[1o) 似，为每一个用户转发信息时分配了一个相对影响扩展了NETINF算法，通过解决最大似然问题来推力和被动分数：Pal等[列提出了一种非图的话题敏断出两两节点的传输速率和传递图像。Gomez 感模型，通过对节点的集群排名发现最具影响力和等[刊继续扩展了NETRATE算法，提出了基于时间权威性的人：Suo等[28]提出了基于超网及其拓扑结变化的推理算法INFOPATH,采用随机梯度提供变构的模型用于分析社交网络中的用户影响力：吴岘化的网络中的在线结构和时序变化分析。Sadikov 辉等[]提出了一种基于用户行为网络的改进的等1们基于K树模型提出了一种可以通过少量的完 PageRank算法，称之为TopicLeaderRank算法，将用整被激活序列估计级联传递中的属性的方法。户属性、网络拓扑及交互信息等特征综合考虑；Sup- 预测模型的目的是观察并学习过去的传递过程 pa等〔0]考虑到社交网络数据和图像的快速增长造

了现有的随机图结构，同时允许组内连接结构之间的信息传输。Ａｍａｔｏ等［１２］在超图模型基础上提出了基于Ｆｌｉｃｋｒ社交多模态信息的超图模型结构模型，利用超图建立多媒体内容之间、用户和多媒体内容之间、用户和用户之间的关系，该模型的引入打破了传统方法只能引入简单的社交关系的限制，为深入研究社交网络提供了方法。基于非图结构的研究方面，Ｂａｊａｊ等［１３］提出了一种基于Ａｇｅｎｔ的模型，该模型把社交网络结构视为一个外生变量，是一种时间感知的关系模型。Ｍｉ⁃ ｈｏｕｂ等［１４］模拟一个主体参与的面对面社交行为，提出了基于贝叶斯网络多式联运的行为模型，并通过实验验证了其性能优于马尔可夫模型（ＨＭＭ）和隐马尔可夫模型（ＨＳＭＭＳ）。由于在线社交网络结构具有社交关系复杂、内容多样、结构动态变化、数据多维等特点，所以对其进行深入研究还需要更多有效的建模和计算方法，而不是仅局限于图的建模方法。１．２社交网络信息传播社交网络的分享和转发功能使用户可以随时转发和分享社交信息，其信息数据的传播和扩散的范围迅速扩大，通过对社交网络中信息的传播机制进行研究可以实现社交网络的舆情与态势分析、谣言传播溯源、事件追踪、精准搜索等研究。社交网络中的信息传播分析涉及到社会学、传播学、统计学、计算机科学等，一般的研究只是针对几个热门的研究点进行，这里主要介绍目前学术界聚焦的信息传播建模和社交影响力分析这两个方向。信息传播主要是通过建立信息传播模型和社交影响力分析等研究社交网络中信息传播的机制。目前的研究可以归纳为两个模型：解释模型和预测模型。解释模型的目的是推导出潜在的级联传递，得出完整的激活序列。Ｇｏｍｅｚ等［１５］提出了基于次模函数优化的ＮＥＴＩＮＦ迭代算法，利用节点间感染次数的联系来推导出级联传递的结构，并假设被激活的节点以特定的概率传递给相邻节点。Ｊｏｎｅｓ等［１６］扩展了ＮＥＴＩＮＦ算法，通过解决最大似然问题来推断出两两节点的传输速率和传递图像。Ｇｏｍｅｚ等［１７］继续扩展了ＮＥＴＲＡＴＥ算法，提出了基于时间变化的推理算法ＩＮＦＯＰＡＴＨ，采用随机梯度提供变化的网络中的在线结构和时序变化分析。Ｓａｄｉｋｏｖ等［１８］基于Ｋ树模型提出了一种可以通过少量的完整被激活序列估计级联传递中的属性的方法。预测模型的目的是观察并学习过去的传递过程中时间和空间的变化，来预测社交网络中传递过程的展开方式，分为基于图和基于非图两类模型。１）基于图模型。Ｒｏｍｅｒｏ等［１９］提出了一个线性阈值模型来预测传递过程的方法，该方法依赖于信息病毒式传播及成对用户之间的影响力和接受信息概率参数等。Ｓａｉｔｏ等［２０］提出了ＡＳＩＣ和ＡＳＬＴ算法，通过提出异步扩展，放宽传统的基于图形的ＩＣ和ＬＴ模型的同步性假设。Ｇｕｉｌｌｅ等［２１］将传播过程建模为异步独立级联过程，提出了Ｔ－ＢａＳＩＣ模型。Ｘｕ等［２２］提出随时间变化的信息扩散模型。该模型主要探讨了随时间变化的信息扩散模型和标准模型的关系。２）基于非图模型。Ｗｅｎ等［２３］提出了一个随机节点水平传播分析模型，它可以动态地获取信息传播时间和捕获人们的行为差异，并可以分析社会参数对信息传播的影响。Ｔｕａｒｏｂ等［２４］提出了一个基于四种网络信号的ＯＩＡ⁃ＳＩＲＳ模型，用于观察网络节点信息在不同节点中的传递情况。Ｔａｍｂｕｓｃｉｏ等［２５］提出了一个改进的ＳＩＳ模型用于预测错误信息在社交网络中的传递规模。模型依赖于４种参数，分别为传递速率、轻信程度、验证可能性和遗忘速度。在同构网、异构网络和真实社交网络的实验中，显示出错误信息检查的可能性的阈值，定量地衡量出根除骗局所必需的最小反应。Ｗａｎｇ等［２６］通过对新浪微博的信息传播过程进行分析，发现微博社区的信息传播类似于动态模型，故通过数据密集型计算理论对动态模型的算法进行改进，同时对新浪微博数据的各种特征进行了挖掘和建模，并提出了Ｓｅｉｎｒ模型，取得了较好的效果。在影响力分析方面。主要有基于网络结构的影响力排序算法、结合网络结构和文本内容的影响力排序算法、异构信息中的影响力算法等。经典的影响力分析算法主要有ＰａｇｅＲａｎｋ算法以及相关的改进算法，如ＳｉｍＲａｎｋ和ＴｗｉｔｔｅｒＲａｎｋ等。Ｒｏｍｅｔｒｏ等［１９］提出了一种基于图的ＩＰ算法，与ＨＩＴＳ算法类似，为每一个用户转发信息时分配了一个相对影响力和被动分数；Ｐａｌ等［２７］提出了一种非图的话题敏感模型，通过对节点的集群排名发现最具影响力和权威性的人；Ｓｕｏ等［２８］提出了基于超网及其拓扑结构的模型用于分析社交网络中的用户影响力；吴岘辉等［２９］提出了一种基于用户行为网络的改进的ＰａｇｅＲａｎｋ算法，称之为ＴｏｐｉｃＬｅａｄｅｒＲａｎｋ算法，将用户属性、网络拓扑及交互信息等特征综合考虑；Ｓｕｐ⁃ ｐａ等［３０］考虑到社交网络数据和图像的快速增长造第６期石磊，等：在线社交网络挖掘与搜索技术研究 ·７７９·

.780 智能系统学报第11卷成的计算复杂度较大，提出了一种改进的Brande算算法，例如图分割、图聚类、图的修剪等方法。法快速评估大型网络中结点距离，为了便于选择主图分割的相关工作认为社区的成因是因为网络结点，采用Louvian算法进行聚类；Yang等[3通过连边之间存在“强弱连边关系”，主要有两点：“三元用户社会角色之间的相互联系及在信息传递时的影闭包”关系下演化出来的、节点之间相互博弈生成响力调查，提出了一个角色导向信息扩散模型，将社的。因此在图分割视角下的科学问题就是“如何识会角色识别和扩散模型集成到一个统一的框架，开别强弱连边关系”。典型的图分割方法是模块化的发出基于吉布斯抽样的算法应用于该模型：Subbian 方法和CPM方法。Su等[]提出了一个模糊模块等[]提出了一个在社会流量中利用主题和时间敏最大化(FMM)的社区发现方法，该方法利用了广义感性的方法计算用户的实时影响力。 NEWMAN模块的最大化方法来发现社区，然后采用上述社交网络的信息传播机制的研究主要集中树的结构局部最优化发现的社区，实验结果表明通在经典的传染病模型的利用和扩展上，没考虑从社过该方法可以高效地发现重叠社区。Kloster等[ 交网络作为一个个体自身去考虑，比如考虑传播过用一个基于热核的算法来标识社区的起始节点，提程中用户的心理因素、用户扮演的角色等。在影响出了一个确定性的局部算法计算社区的产生，并通力分析方面通常只考虑了社交网络用户的全局影响过度加权范数的矩阵指数模型来估计社区。AL 力或者局部影响力，而没有根据实际情况综合去考 TUNBEY等3]提出了元启发式模块优化算法，该算虑，忽视了社交网络的尺度多样性特征。法通过优化网络模块化的适应度函数来发现重叠社 1.3社区发现区，取得了较好的效果。ARAB等6提出自下而上社交网络的核心是参与其中的用户以及用户之的社区检测方法，采用模块化和NMI的混合方法从间的关系。因此，学术界通常采用图模型对其进行建细粒度的社区开始，逐步发现真实社区。Chen 模，其中节点表示参与社交网络中的用户，而边则表等[别在基于图分割策略的基础上提出了一个局部示社交网络中用户间的关系，同时利用每条边的权重菲德勒向量中心算法(LFVC)来发现深度社区。模表示用户之间关系强度或亲密程度，权值越大表示关块法方法虽然有不错的效果，但其缺点也很明显，就系强度或者亲密程度越大，那些内部连接比较紧密的是存在识别极限的问题。节点子集合对应的子图叫做社区，各社区节点集合彼当前图聚类的方法主要是基于谱聚类思想。它此没有交集的称为非重叠型社区，有交集的称为重叠关注的科学问题是“节点的空间映射问题”。谱聚型社区。网络图中包含一个社区的现象称为社区结类算法是解决网络生成模型的有效的方法，这种概构。给定一个网络图，找出其社区结构的过程叫做社率生成模型的理论基础也使得其具有广泛的普适效区发现。一个典型的社区如图1所示，图中各个点表应，成为现今社区发现算法的主要研究方向。Zhang 示成千上万的用户，边表示用户之间的关系，每个点等[8]的研究致力于通过谱聚类算法解决重叠社区聚集的区域表示一个社区，同时由于每个人可能有多发现的问题。Gao等[9]通过图聚类的发放解决了种爱好，不同的社区可以发生重叠。复杂网络的适用性问题。Mahmood等ao]通过线性编码来提高算法运行速率的问题，取得良好的效果。然而，上述的方法都是从建模网络连边密度入手的，没有实际建模网络连边的生成过程。而且上述方法认为每个节点仅仅属于一个社区，忽略了社区中存在的重叠现象，因此，节点表达的思路认为每个节点都是K个社区的分配的表达。这里的科学问题就是“如何通过观测网络学习得到这种节点的隐式表达”。AIROLDI等[4)提出了混合隶属度随机块模图1典型的社区图型，这种基于概率统计方法的生成式模型更好地解 Fig.1 Typical community graph 释了节点之间的边是如何生成的以及整个网络是如社区发现技术可以发现社交网络中相关的拓何生成的，并通过机器学习方法来学习隐变量得到扑结构以及兴趣爱好，通常采用不同的数据挖掘算网络的重叠划分。这种方法对网络的解释性更好，法来研究，目前的研究方法通常集中在图论的相关唯一缺点就是优化速度慢，可能会优化到局部最优

成的计算复杂度较大，提出了一种改进的Ｂｒａｎｄｅ算法快速评估大型网络中结点距离，为了便于选择主结点，采用Ｌｏｕｖｉａｎ算法进行聚类；Ｙａｎｇ等［３１］通过用户社会角色之间的相互联系及在信息传递时的影响力调查，提出了一个角色导向信息扩散模型，将社会角色识别和扩散模型集成到一个统一的框架，开发出基于吉布斯抽样的算法应用于该模型；Ｓｕｂｂｉａｎ等［３２］提出了一个在社会流量中利用主题和时间敏感性的方法计算用户的实时影响力。上述社交网络的信息传播机制的研究主要集中在经典的传染病模型的利用和扩展上，没考虑从社交网络作为一个个体自身去考虑，比如考虑传播过程中用户的心理因素、用户扮演的角色等。在影响力分析方面通常只考虑了社交网络用户的全局影响力或者局部影响力，而没有根据实际情况综合去考虑，忽视了社交网络的尺度多样性特征。１．３社区发现社交网络的核心是参与其中的用户以及用户之间的关系。因此，学术界通常采用图模型对其进行建模，其中节点表示参与社交网络中的用户，而边则表示社交网络中用户间的关系，同时利用每条边的权重表示用户之间关系强度或亲密程度，权值越大表示关系强度或者亲密程度越大，那些内部连接比较紧密的节点子集合对应的子图叫做社区，各社区节点集合彼此没有交集的称为非重叠型社区，有交集的称为重叠型社区。网络图中包含一个社区的现象称为社区结构。给定一个网络图，找出其社区结构的过程叫做社区发现。一个典型的社区如图１所示，图中各个点表示成千上万的用户，边表示用户之间的关系，每个点聚集的区域表示一个社区，同时由于每个人可能有多种爱好，不同的社区可以发生重叠。图１典型的社区图Ｆｉｇ．１Ｔｙｐｉｃａｌｃｏｍｍｕｎｉｔｙｇｒａｐｈ社区发现技术可以发现社交网络中相关的拓扑结构以及兴趣爱好，通常采用不同的数据挖掘算法来研究，目前的研究方法通常集中在图论的相关算法，例如图分割、图聚类、图的修剪等方法。图分割的相关工作认为社区的成因是因为网络连边之间存在“强弱连边关系”，主要有两点：“三元闭包”关系下演化出来的、节点之间相互博弈生成的。因此在图分割视角下的科学问题就是“如何识别强弱连边关系”。典型的图分割方法是模块化的方法和ＣＰＭ方法。Ｓｕ等［３３］提出了一个模糊模块最大化（ＦＭＭ）的社区发现方法，该方法利用了广义ＮＥＷＭＡＮ模块的最大化方法来发现社区，然后采用树的结构局部最优化发现的社区，实验结果表明通过该方法可以高效地发现重叠社区。Ｋｌｏｓｔｅｒ等［３４］用一个基于热核的算法来标识社区的起始节点，提出了一个确定性的局部算法计算社区的产生，并通过度加权范数的矩阵指数模型来估计社区。ＡＬ⁃ ＴＵＮＢＥＹ等［３５］提出了元启发式模块优化算法，该算法通过优化网络模块化的适应度函数来发现重叠社区，取得了较好的效果。ＡＲＡＢ等［３６］提出自下而上的社区检测方法，采用模块化和ＮＭＩ的混合方法从细粒度的社区开始，逐步发现真实社区。Ｃｈｅｎ等［３７］在基于图分割策略的基础上提出了一个局部菲德勒向量中心算法（ＬＦＶＣ）来发现深度社区。模块法方法虽然有不错的效果，但其缺点也很明显，就是存在识别极限的问题。当前图聚类的方法主要是基于谱聚类思想。它关注的科学问题是“节点的空间映射问题”。谱聚类算法是解决网络生成模型的有效的方法，这种概率生成模型的理论基础也使得其具有广泛的普适效应，成为现今社区发现算法的主要研究方向。Ｚｈａｎｇ等［３８］的研究致力于通过谱聚类算法解决重叠社区发现的问题。Ｇａｏ等［３９］通过图聚类的发放解决了复杂网络的适用性问题。Ｍａｈｍｏｏｄ等［４０］通过线性编码来提高算法运行速率的问题，取得良好的效果。然而，上述的方法都是从建模网络连边密度入手的，没有实际建模网络连边的生成过程。而且上述方法认为每个节点仅仅属于一个社区，忽略了社区中存在的重叠现象，因此，节点表达的思路认为每个节点都是Ｋ个社区的分配的表达。这里的科学问题就是“如何通过观测网络学习得到这种节点的隐式表达”。ＡＩＲＯＬＤＩ等［４１］提出了混合隶属度随机块模型，这种基于概率统计方法的生成式模型更好地解释了节点之间的边是如何生成的以及整个网络是如何生成的，并通过机器学习方法来学习隐变量得到网络的重叠划分。这种方法对网络的解释性更好，唯一缺点就是优化速度慢，可能会优化到局部最优。 ·７８０· 智能系统学报第１１卷

第6期石磊，等：在线社交网络挖掘与搜索技术研究 .781 1.4情感分析 1.5社交网络事件监测情感计算是1997年由MIT的Picard教授提出社交网络事件监测的目标是对社交内容中的事的，情感计算是与情感相关，来源于情感或能够对情件和热点话题的自动识别和已知话题的持续跟踪。感施加影响的计算，而随着社交网络的发展，基于社事件监测的基础方法为计算文档之间的相似性。具交网络的情感分析再次成为学术界的研究热点，通体方法是预先设置关键词或者突发词，然后计算词过情感分析可以对社交网络搜索提供更加精确的理与词之间相似度来监测事件，文档之间相似性常用解，提高搜索准确度。度量方法为夹角余弦，如式(1)所示：目前学术界基于情感分析的研究方法主要集中在社交网络文本的情感词方法。该方法主含a× sim(D,D,)cos 0= (1) 要是通过人工整理出程度副词表、否定词表和社交网络中默认表情符号的褒贬分类，然后在情感 } 词语计算的基础上，考虑上下文中否定词和程度式中：sim(D1,D2)表示相似度函数，D,和D2表示文词对修饰情感词语的情感倾向和情感强度的影档内容，而A,和B,表示两个n维向量。响，同时也设定规则计算表情符号对一条微博的该方法仅适用于静态文本语料库分析的传统话情感倾向判断的作用[42]。Marquez等[43]使用相题监测技术，而社交网络中不但存在大量的静态文关的情感词典从不同的情绪特征维度出发来提本，同时也存在跨媒体内容，这就涉及语义分析相关升微博情感分类的精度：H山等〔4)通过加入社会内容，因此这种简单计算文本相似性的方法无法直学的方法来提高情感分析的准确性，该方法结合接适用于在线社交网络产生的跨媒体的海量数据了情绪感染理论到监督学习的过程，并利用稀疏中。Kaleel等[so]利用词频逆序文档频率和局部敏学习实现了微博文本中的去噪；Debashis等[4s]通感哈希的方法实现热点事件发现，并通过聚类的方过用户社交网络中的对话，确定用户的情绪，通法提高事件监测的效率。Andrea等[s)提出了一个过一个新的词汇字典和情感的罗素模型识别情基于微博交通事件实时监测系统，根据微博标签和感，并利用隐含狄利克雷分配(LDA)生成模型建预设的搜索条件，利用支持向量机算法对事件进行立主题和情感分布：Sixto等〔46]利用BM25排序分类，最后实现事件监测。Li等提出了基于函数与支持向量机相结合的监督学习方法来对 Spak的分布式微博突发事件监测增量时间主题模 Twitter进行情感分析，具有较好的效果。型，该模型能够利用短文本数据集和时间信息监测随着社交网络和移动社交APP的发展，社交网突发事件，这种分布式的设计大大提高了监测效率。络中其他媒体如图片、视频、音乐等数据急聚增多， Zhang等[s)提出了突发事件监测和趋势预测的方对社交网络中图像、视频的情感分析等相关技术的法。该方法利用词频和用户的社交关系等信息进行研究也成为一个重要方向。深度学习的兴起对跨媒事件监测，并提出了一个扩散模型来预测事件的流体数据分析具有重要意义，You等[)利用微调的深行趋势。该方法解决了大多数现有的方法只专注于度卷积神经网络构架训练图片情感分析模型，相比事件监测，但忽略了预测未来趋势的问题。Zou 传统的方法具有较好的效果：Chao等[4s]利用长短等[]基于图的模型提出了一个监测社会事件的框期记忆神经循环网络构架和时间池技术对音频和视架LTT,该框架可以捕捉内容、时间、地点和社交信频情感分析：Poia等49]针对跨媒体的情感分析进息，具有良好的适用性。Pohl等[s]提出了社交网络行研究并取得了一定的进展，其主要利用了各自领事件自动监测方法，可以高效地实现对Flicker和域的情感分析方法，然后通过特征级和决策级的特 YouTube的社交事件和子事件进行监测。上述方法征融合来训练情感分析模型，其结果较之单一模态在事件监测方面都取得了良好的效果，但是上述方的情感分析方法精度更高。法侧重于社交网络的文本内容的事件监测，而忽略目前的情感分析方法大多是通过简单的使用一了社交相关内容。Gule等[s]提出了异常事件监测些情感词等基于文本的方法，而忽略了用户用来增方法，该方法主要利用动态链接的创作频率。用户强情感的图像及视频等内容，这样很难符合真实社动态地在微博上插入需要监测重要事件，并估计对交网络中用户复杂的情感表示，将为社交网络情感人群的影响程度。Zhang等s提出了基于突发词权分析带来新的挑战。重的时间窗口内提取突发词方法，然后结合层次聚

１．４情感分析情感计算是１９９７年由ＭＩＴ的Ｐｉｃａｒｄ教授提出的，情感计算是与情感相关，来源于情感或能够对情感施加影响的计算，而随着社交网络的发展，基于社交网络的情感分析再次成为学术界的研究热点，通过情感分析可以对社交网络搜索提供更加精确的理解，提高搜索准确度。目前学术界基于情感分析的研究方法主要集中在社交网络文本的情感词方法。该方法主要是通过人工整理出程度副词表、否定词表和社交网络中默认表情符号的褒贬分类，然后在情感词语计算的基础上，考虑上下文中否定词和程度词对修饰情感词语的情感倾向和情感强度的影响，同时也设定规则计算表情符号对一条微博的情感倾向判断的作用［４２］。Ｍａｒｑｕｅｚ等［４３］使用相关的情感词典从不同的情绪特征维度出发来提升微博情感分类的精度；Ｈｕ等［４４］通过加入社会学的方法来提高情感分析的准确性，该方法结合了情绪感染理论到监督学习的过程，并利用稀疏学习实现了微博文本中的去噪；Ｄｅｂａｓｈｉｓ等［４５］通过用户社交网络中的对话，确定用户的情绪，通过一个新的词汇字典和情感的罗素模型识别情感，并利用隐含狄利克雷分配（ＬＤＡ）生成模型建立主题和情感分布；Ｓｉｘｔｏ等［４６］利用ＢＭ２５排序函数与支持向量机相结合的监督学习方法来对Ｔｗｉｔｔｅｒ进行情感分析，具有较好的效果。随着社交网络和移动社交ＡＰＰ的发展，社交网络中其他媒体如图片、视频、音乐等数据急聚增多，对社交网络中图像、视频的情感分析等相关技术的研究也成为一个重要方向。深度学习的兴起对跨媒体数据分析具有重要意义，Ｙｏｕ等［４７］利用微调的深度卷积神经网络构架训练图片情感分析模型，相比传统的方法具有较好的效果；Ｃｈａｏ等［４８］利用长短期记忆神经循环网络构架和时间池技术对音频和视频情感分析；Ｐｏｒｉａ等［４９］针对跨媒体的情感分析进行研究并取得了一定的进展，其主要利用了各自领域的情感分析方法，然后通过特征级和决策级的特征融合来训练情感分析模型，其结果较之单一模态的情感分析方法精度更高。目前的情感分析方法大多是通过简单的使用一些情感词等基于文本的方法，而忽略了用户用来增强情感的图像及视频等内容，这样很难符合真实社交网络中用户复杂的情感表示，将为社交网络情感分析带来新的挑战。１．５社交网络事件监测社交网络事件监测的目标是对社交内容中的事件和热点话题的自动识别和已知话题的持续跟踪。事件监测的基础方法为计算文档之间的相似性。具体方法是预先设置关键词或者突发词，然后计算词与词之间相似度来监测事件，文档之间相似性常用度量方法为夹角余弦，如式（１）所示：ｓｉｍＤ１，Ｄ２ ( ) ＝ｃｏｓ θ ＝ ∑ ｎｉ＝１Ａｉ × Ｂｉ ( ) ∑ ｎｉ＝１Ａ２ｉ × ∑ ｎｉ＝１Ｂ２ｉ（１）式中：ｓｉｍ（Ｄ１，Ｄ２）表示相似度函数，Ｄ１和Ｄ２表示文档内容，而Ａｉ和Ｂｉ表示两个ｎ维向量。该方法仅适用于静态文本语料库分析的传统话题监测技术，而社交网络中不但存在大量的静态文本，同时也存在跨媒体内容，这就涉及语义分析相关内容，因此这种简单计算文本相似性的方法无法直接适用于在线社交网络产生的跨媒体的海量数据中。Ｋａｌｅｅｌ等［５０］利用词频逆序文档频率和局部敏感哈希的方法实现热点事件发现，并通过聚类的方法提高事件监测的效率。Ａｎｄｒｅａ等［５１］提出了一个基于微博交通事件实时监测系统，根据微博标签和预设的搜索条件，利用支持向量机算法对事件进行分类，最后实现事件监测。Ｌｉ等［５２］提出了基于Ｓｐａｒｋ的分布式微博突发事件监测增量时间主题模型，该模型能够利用短文本数据集和时间信息监测突发事件，这种分布式的设计大大提高了监测效率。Ｚｈａｎｇ等［５３］提出了突发事件监测和趋势预测的方法。该方法利用词频和用户的社交关系等信息进行事件监测，并提出了一个扩散模型来预测事件的流行趋势。该方法解决了大多数现有的方法只专注于事件监测，但忽略了预测未来趋势的问题。Ｚｈｏｕ等［５４］基于图的模型提出了一个监测社会事件的框架ＬＴＴ，该框架可以捕捉内容、时间、地点和社交信息，具有良好的适用性。Ｐｏｈｌ等［５５］提出了社交网络事件自动监测方法，可以高效地实现对Ｆｌｉｃｋｅｒ和ＹｏｕＴｕｂｅ的社交事件和子事件进行监测。上述方法在事件监测方面都取得了良好的效果，但是上述方法侧重于社交网络的文本内容的事件监测，而忽略了社交相关内容。Ｇｕｉｌｌｅ等［５６］提出了异常事件监测方法，该方法主要利用动态链接的创作频率。用户动态地在微博上插入需要监测重要事件，并估计对人群的影响程度。Ｚｈａｎｇ等［５７］提出了基于突发词权重的时间窗口内提取突发词方法，然后结合层次聚第６期石磊，等：在线社交网络挖掘与搜索技术研究 ·７８１·

点击进入文档下载页（PDF格式）

共11页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录

【综述】在线社交网络挖掘与搜索技术研究