当前位置：和泉文库 > 工程 > 浏览文档

《工程科学学报》：一种面向网络长文本的话题检测方法

文件格式：PDF，文件大小：1.12MB，售价：2.52元

文档详细内容（约7页）

工程科学学报，第41卷，第9期：1208-1214,2019年9月 Chinese Journal of Engineering,Vol.41,No.9:1208-1214,September 2019 DOI:10.13374/j.issn2095-9389.2019.09.013;http://journals.ustb.edu.cn 一种面向网络长文本的话题检测方法郑恒毅)，廖城霖)四，李天柱) 1)重庆大学机械工程学院，重庆4000442)重庆大学自动化学院，重庆400044 ☒通信作者，E-mail:liaochenglinl127@gmail.com 摘要提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题，提出了Wod2vc &LDA(latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题，提出了基于文本聚类的Single-Pass&HAC(hierarchical agglomerative clustering)的话题发现方法，在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性，同时提高了聚类的精度和效率.为了评估所提出方法的有效性，本文从某大学社交平台收集了来自真实世界的多源数据集，并基于此进行了大量的实验.实验结果证明，本文提出的方法相对于现有的方法，如VSM(state vector space model)、Single-Pass等拥有更好的效果，话题检测的精度提高了l0%~20%. 关键词网络长文本：话题检测：文本表示：话题发现：文本聚类分类号TP391.4 A topic detection method for network long text ZHENG Heng-yi,LIAO Cheng-lin)LI Tian-zhu) 1)College of Mechanical Engineering,Chongqing University,Chongqing 400044.China 2)College of Automation,Chongqing University,Chongqing 400044,China Corresponding author,E-mail:liaochenglinl127@gmail.com ABSTRACT Internet public opinion is an important source of people's views on social hotspots and national current affairs.Topic detection in network long text contributes toward the analysis of network public opinion.According to the results of topic detection,the policymaker can timely and reliably make scientific decisions.In general,topic detection can be divided into two steps,i.e.,repre- sentation learning and topic discovery.However,common representation learning methods,such as state vector space model (VSM) and term frequency-inverse document frequency,often lead to the problems of high dimensionality,sparsity,and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders.To overcome these,a novel topic detection method was presented herein.First,Word2vec latent Dirichlet allocation (LDA)-based methods for representation learning were proposed to avoid the problem of high-dimensional sparsity and neglect of latent semantics.Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information.Furthermore,Single-Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders.To evaluate the effectiveness and efficiency of the proposed method,extensive experiments were conducted on a real- world multi-source dataset,which was collected from university social platforms.The experimental results show that the proposed meth- od outperforms other methods,such as VSM and Single-Pass,by improving the clustering accuracy by 10%-20%. KEY WORDS network long text;topic detection;text representation;topic discovery;text cluster 收稿日期：2019-01-03

工程科学学报,第 41 卷,第 9 期:1208鄄鄄1214,2019 年 9 月 Chinese Journal of Engineering, Vol. 41, No. 9: 1208鄄鄄1214, September 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2019. 09. 013; http: / / journals. ustb. edu. cn 一种面向网络长文本的话题检测方法郑恒毅1) , 廖城霖2) 苣 , 李天柱2) 1)重庆大学机械工程学院, 重庆 400044 2) 重庆大学自动化学院, 重庆 400044 苣通信作者, E鄄mail:liaochenglin1127@ gmail. com 摘要提出了一种面向网络长文本的话题检测方法. 针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了 Word2vec & LDA (latent dirichlet allocation)的文本表示方法. 将 LDA 提取的文本特征词隐含主题和 Word2vec 映射的特征词向量进行加权融合既能够进行降维的作用又可以较为完整的表示出文本信息. 针对传统话题发现方法对长文本输入顺序敏感问题,提出了基于文本聚类的 Single鄄鄄Pass & HAC (hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率. 为了评估所提出方法的有效性,本文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验. 实验结果证明,本文提出的方法相对于现有的方法,如 VSM (state vector space model)、Single鄄鄄Pass 等拥有更好的效果,话题检测的精度提高了 10% ~ 20% . 关键词网络长文本; 话题检测; 文本表示; 话题发现; 文本聚类分类号 TP391郾 4 收稿日期: 2019鄄鄄01鄄鄄03 A topic detection method for network long text ZHENG Heng鄄yi 1) , LIAO Cheng鄄lin 2) 苣 , LI Tian鄄zhu 2) 1) College of Mechanical Engineering, Chongqing University, Chongqing 400044, China 2) College of Automation, Chongqing University, Chongqing 400044, China 苣Corresponding author, E鄄mail: liaochenglin1127@ gmail. com ABSTRACT Internet public opinion is an important source of people爷 s views on social hotspots and national current affairs. Topic detection in network long text contributes toward the analysis of network public opinion. According to the results of topic detection, the policymaker can timely and reliably make scientific decisions. In general, topic detection can be divided into two steps, i. e. , repre鄄 sentation learning and topic discovery. However, common representation learning methods, such as state vector space model (VSM) and term frequency鄄鄄inverse document frequency, often lead to the problems of high dimensionality, sparsity, and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders. To overcome these, a novel topic detection method was presented herein. First, Word2vec & latent Dirichlet allocation (LDA)鄄based methods for representation learning were proposed to avoid the problem of high鄄dimensional sparsity and neglect of latent semantics. Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information. Furthermore, Single鄄鄄Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders. To evaluate the effectiveness and efficiency of the proposed method, extensive experiments were conducted on a real鄄 world multi鄄source dataset, which was collected from university social platforms. The experimental results show that the proposed meth鄄 od outperforms other methods, such as VSM and Single鄄鄄Pass, by improving the clustering accuracy by 10% 鄄鄄20% . KEY WORDS network long text; topic detection; text representation; topic discovery; text cluster

郑恒毅等：一种面向网络长文本的话题检测方法 ·1209· 在网络长文本中进行话题检测可以在大量冗余效地解决长文本表示存在的高维稀疏性问题，而且文本数据中找到有价值的主题信息).在网络奥情能够同时表示出文本的主题和特征词信息.针对传分析系统中，网络事件具有突发性和快速传播性，及统话题发现方法对长文本输入顺序敏感导致的聚类时迅速地对网络长文本进行话题检测有助于相关监时精度不高、效率低下的问题，本文研究了一种基于管部门对于网络舆情进行科学地决策).在知识转时间窗口Single-Pass&LDA的聚类算法，能有效减移领域中，将知识库中的知识进行话题检测，可以除小Single-Pass算法对于文本输入顺序敏感性，提高去冗余数据并且将知识进行归类，可以提高后续知话题检测的精度识传输和吸收过程中的效率3] 网络长文本话题检测的主要任务是对大量文本 1基于文本表示与聚类的话题检测方法数据进行聚类)，从而进一步对人们关心的事件进 1.1基于LDA&Word2vec和Single-Pass&HAC 行发现.随着近几年互联网产业的快速发展，国内的话题检测算法的话题检测领域也涌现了不少具有影响力的成果. 本文首先研究了基于LDA和Word2vec融合的例如，山东大学通过对校园网络文本进行Single- 文本特性向量表示，在分别计算了文本的LDA特征 Pass聚类分析，获取话题簇，提出了基于论坛和新闻向量（主题-文本表示）和Word2vec的词向量与的舆情分析系统[).北京邮电大学通过对论坛的文 T℉-DF相乘相加的结果后，运用基于时间窗口的本分析6]，利用简单的聚类方法进行主题发现，提 Single--Pass进行初步聚类，由于基于时间窗口的出了基于论坛的话题发现与跟踪算法[-8).哈尔滨 Single--Pass算法的复杂度较低，可以同时与上一时工业大学“基于论坛的舆情分析系统”[通过对论刻的聚类话题簇进行相似度计算，在大量文本的输坛文本的抽取，基于聚类的主题发现和句法分析的入下快速形成凝聚度高、颗粒小的话题簇，再利用情感倾向来获取论坛的热点信息，得到舆情信息 HAC算法将分散的话题簇通过相似度计算合并，最对树络长文本进行话题检则主要分为两个步终得到一个良好的聚类结果.具体的算法流程如图骤：文本表示和话题发现.在文本表示方法中，经典 1所示. 的文本模型就是VSMo],VSM利用文本特征性的 1.2基于Word2vec&LDA的文本表示权重表示文本，既而在向量空间表示文本的相似度，文本数据无法直接输入到计算机进行处理的， VSM模型简单、操作方便，但是在大量文本数据情需要进行结构化处理，利用向量来对文本进行表示. 况下存在高维度、数据稀疏等缺陷.近年来，越来越在VSM模型中将所有文本数据用D={d,,d2,… 多学者开始将LDA[]应用到网络长文本的话题检 dn,…,dx}来表示，将所有特征词用T={t1,t2,…, 测[2-1)，通过LDA模型的训练得到文本的潜在主 tu}表示，将每个文档表示为d={(w1,t1),(02, 题信息[4-15]，进而有效地提取文本主题，实现话题 2),…,(0,4)},其中0表示i篇文档的t词的权的检测.同时，随着深度学习的发展，有学者将词向重.在本文中使用T℉-DF,即词频-反文档频率权量模型16]引入到文本表示中，丰富了文本特征，加重法来对权重进行计算.计算公式如式(1)所示：强了话题检测的效果.在话题发现中，文本聚类是 N 常用的检测方法.聚类方法的好坏直接影响检测的 +0.01 结果，目前常用的聚类算法有K-Means(7],二分K- Means18】,Single--Pass]、层次聚类2o]等，也有学者 +0.01 将这些经典算法上优化或者组合，例如文献[21]在式中为词语出现的频率，为逆向文件频率，N 传统K-Means的基础上优化了初始化聚类簇心，有为文本总数效地对新闻事件进行了检测.但是K-Means需要基于VSM的话题检测过程中，直接利用特征词事先设定类簇数量，聚类效果依赖初始化的类簇中及其权重来直接比较两篇文档的相似度，这种方法心，Single-Pass对输入顺序和阈值设置十分敏感，层随着数据量的提升会出现维度灾难，并且无法找到次聚类需要大量的时间，效率不高. 词语之间的隐含关系，常常忽略词语在上下文中的本文从网络长文本的特性出发，针对文本表示含义.因此将LDA模型引入，LDA假设每个特征词的高维稀疏性和忽略潜在语义的问题，研究了一种都是由一个隐含的主题抽取得到的，而一篇文本可基于word2vec&LDA的文本向量化方法，不仅能有以由多个不同概率分布的主题生成，每个主题又由

郑恒毅等: 一种面向网络长文本的话题检测方法在网络长文本中进行话题检测可以在大量冗余文本数据中找到有价值的主题信息[1] . 在网络舆情分析系统中,网络事件具有突发性和快速传播性,及时迅速地对网络长文本进行话题检测有助于相关监管部门对于网络舆情进行科学地决策[2] . 在知识转移领域中,将知识库中的知识进行话题检测,可以除去冗余数据并且将知识进行归类,可以提高后续知识传输和吸收过程中的效率[3] . 网络长文本话题检测的主要任务是对大量文本数据进行聚类[4] ,从而进一步对人们关心的事件进行发现. 随着近几年互联网产业的快速发展,国内的话题检测领域也涌现了不少具有影响力的成果. 例如,山东大学通过对校园网络文本进行 Single鄄鄄 Pass 聚类分析,获取话题簇,提出了基于论坛和新闻的舆情分析系统[5] . 北京邮电大学通过对论坛的文本分析[6] ,利用简单的聚类方法进行主题发现,提出了基于论坛的话题发现与跟踪算法[7鄄鄄8] . 哈尔滨工业大学“基于论坛的舆情分析系统冶 [9] 通过对论坛文本的抽取,基于聚类的主题发现和句法分析的情感倾向来获取论坛的热点信息,得到舆情信息. 对网络长文本进行话题检测主要分为两个步骤:文本表示和话题发现. 在文本表示方法中,经典的文本模型就是 VSM [10] ,VSM 利用文本特征性的权重表示文本,既而在向量空间表示文本的相似度, VSM 模型简单、操作方便,但是在大量文本数据情况下存在高维度、数据稀疏等缺陷. 近年来,越来越多学者开始将 LDA [11] 应用到网络长文本的话题检测[12鄄鄄13] ,通过 LDA 模型的训练得到文本的潜在主题信息[14鄄鄄15] ,进而有效地提取文本主题,实现话题的检测. 同时,随着深度学习的发展,有学者将词向量模型[16]引入到文本表示中,丰富了文本特征,加强了话题检测的效果. 在话题发现中,文本聚类是常用的检测方法. 聚类方法的好坏直接影响检测的结果,目前常用的聚类算法有 K鄄鄄Means [17] ,二分 K鄄鄄 Means [18] 、Single鄄鄄Pass [19] 、层次聚类[20] 等,也有学者将这些经典算法上优化或者组合,例如文献[21]在传统 K鄄鄄Means 的基础上优化了初始化聚类簇心,有效地对新闻事件进行了检测. 但是 K鄄鄄 Means 需要事先设定类簇数量,聚类效果依赖初始化的类簇中心,Single鄄鄄Pass 对输入顺序和阈值设置十分敏感,层次聚类需要大量的时间,效率不高. 本文从网络长文本的特性出发,针对文本表示的高维稀疏性和忽略潜在语义的问题,研究了一种基于 word2vec & LDA 的文本向量化方法,不仅能有效地解决长文本表示存在的高维稀疏性问题,而且能够同时表示出文本的主题和特征词信息. 针对传统话题发现方法对长文本输入顺序敏感导致的聚类时精度不高、效率低下的问题,本文研究了一种基于时间窗口 Single鄄鄄Pass & LDA 的聚类算法,能有效减小 Single鄄鄄Pass 算法对于文本输入顺序敏感性,提高话题检测的精度. 1 基于文本表示与聚类的话题检测方法 1郾 1 基于 LDA & Word2vec 和 Single鄄鄄Pass&HAC 的话题检测算法本文首先研究了基于 LDA 和 Word2vec 融合的文本特性向量表示,在分别计算了文本的 LDA 特征向量(主题鄄鄄文本表示) 和 Word2vec 的词向量与 TF鄄鄄IDF 相乘相加的结果后,运用基于时间窗口的 Single鄄鄄Pass 进行初步聚类,由于基于时间窗口的 Single鄄鄄Pass 算法的复杂度较低,可以同时与上一时刻的聚类话题簇进行相似度计算,在大量文本的输入下快速形成凝聚度高、颗粒小的话题簇,再利用 HAC 算法将分散的话题簇通过相似度计算合并,最终得到一个良好的聚类结果. 具体的算法流程如图 1 所示. 1郾 2 基于 Word2vec & LDA 的文本表示文本数据无法直接输入到计算机进行处理的, 需要进行结构化处理,利用向量来对文本进行表示. 在 VSM 模型中将所有文本数据用 D = { d1 ,d2 ,… dn ,…,dN }来表示,将所有特征词用 T = { t 1 ,t 2 ,…, tM }表示,将每个文档表示为 di = {(wi1 ,t 1 ),(wi2 , t 2 ),…,(wij,t j)},其中 wij表示 i 篇文档的 t j 词的权重. 在本文中使用 TF鄄鄄 IDF,即词频鄄鄄反文档频率权重法来对权重进行计算. 计算公式如式(1)所示: wij = f t j·lg ( N f d t j + 0郾 01 ) 移 j沂 [ N f t j·lg ( N f d t j + 0郾 01 ) ] 2 (1) 式中,f t j为词语 t j 出现的频率,f d t j为逆向文件频率,N 为文本总数. 基于 VSM 的话题检测过程中,直接利用特征词及其权重来直接比较两篇文档的相似度,这种方法随着数据量的提升会出现维度灾难,并且无法找到词语之间的隐含关系,常常忽略词语在上下文中的含义. 因此将 LDA 模型引入,LDA 假设每个特征词都是由一个隐含的主题抽取得到的,而一篇文本可以由多个不同概率分布的主题生成,每个主题又由 ·1209·

·1210· 工程科学学报，第41卷，第9期 (开始况下，根据主题词语的Dirichlet先验分布[B。,B.a, BaBv]T生成的多项式分布[p1,p2,poa…pv]I, 舆情文本从词袋中抽取一个词语w.LDA文本建模的主要文本预处理、问题就是求解文档-主题和主题-特征词分布参数分词矩阵0和Φ的值，本文使用Gibbs采样的方法来估 LDA文本建模 Word2vec VSM空间算LDA的参数词向量构建假设已知任意函数的条件分布p(x:Ix-:),其中计算文本相似度词向量与TF-DF 权重相乘相加 x-i=（x1,2,…,x-1x+1,…,xn),通过马尔科夫链蒙特卡洛算法就可以得到联合分布.首先建立z和计算文本相似度 w的联合分布，其数学表达式如式(2)所示：两种文本 p(w.-Ia.B)-p(w.-.0.01o.B)d0d@(2) 相似度结合给定z和w的联合分布，即可通过式(3)来计基于时间窗口的算Gibs采样的条件概率： Single-Pass聚类 p(2=alz,x,aB)= p(=al x,a,B) HAC话题合并 (3) p(,女=a1r,,B）得到最终聚类结果马尔科夫链平稳之后，给定一个采用的主题：，设定参数α和B,即可通过EM算法来估计分布参「结束数矩阵0和Φ的值图1 Single-Pass&HAC算法流程 DA建模构成了文本-主题分布，但是缺少了 Fig.1 Single-Pass HAC algorithm flow 词语本身之间的联系，只能在一定程度上表示文本多个不同概率的主题词来表达.LDA将文本数据抽数据.为了更好地对文本进行表示，还需要利用象为主题、文档、词语的一个贝叶斯概率模型.进行 Skip-Gram模型来训练语料库，将所有的特征词映 LDA建模过程图2所示，其中为每篇文档主题的射到一定维度的向量空间中，将词语表示为向量. Dirichlet先验分布参数：0每篇文档的主题分布；z 在Skip-Gram模型中，特征词作为输入层，上下文词为给词语分配的主题，共有K个，w为词袋中的一个作为输出层，即通过特征词来预测上下文词，具体的词语；为主题中的词语分布；B为每个主题词语分模型结构如图3所示. 布的Dirichlet先验分布参数，词汇表中共有V个使用t,表示输入层特征词的P维输入向量，复词语. 制和转置输入层到隐含层的权重矩阵W中的第p 行，可以得到Q维隐含层h,的定义如式(4)所示： h。=w (4) 输出层上，输出C个多项式分布，输出都由相同的隐含和输出矩阵得到，如式(5)所示： e"e& P(teh =to.elt)=yc.h= (5) 图2LDA建模过程图 Fig.2 LDA modeling process diagram 式中，t,是输出层的第c个分布上的第h个特征词， to是输出上下文词中实际的第s个词，1是唯一的在LDA建模中，首先对于文本d,首先随机从输入词，y,是输出层第c个分布上的第h个单元的 Dirichlet先验分布a=[a,a,a…a]T中选出输出，“。，h是输出层第c个分布上的第h个单元的净的一个主题多项式分布=[叫，时，…股]T, 输入.由于输出层面共享相同的权重，则有：然后根据多项式分布给该文档的第i个词语分 ueh=uh=vhh。 (6) 配一个主题=a.在已知选定的主题=a的情其中，c=1,2,…,C.y,表示第h个特征词的输出向

工程科学学报,第 41 卷,第 9 期图 1 Single鄄鄄Pass & HAC 算法流程 Fig. 1 Single鄄鄄Pass & HAC algorithm flow 多个不同概率的主题词来表达. LDA 将文本数据抽象为主题、文档、词语的一个贝叶斯概率模型. 进行 LDA 建模过程图 2 所示,其中琢为每篇文档主题的 Dirichlet 先验分布参数;兹每篇文档的主题分布;z 为给词语分配的主题,共有 K 个,w 为词袋中的一个词语;渍为主题中的词语分布;茁为每个主题词语分布的 Dirichlet 先验分布参数,词汇表中共有 V 个词语. 图 2 LDA 建模过程图 Fig. 2 LDA modeling process diagram 在 LDA 建模中,首先对于文本 dn ,首先随机从 Dirichlet 先验分布琢 dn = [琢 dn 1 ,琢 dn 2 ,琢 dn 3 …琢 dn K ] T 中选出的一个主题多项式分布兹 dn = [ 兹 dn 1 ,兹 dn 2 ,兹 dn 3 …兹 dn K ] T , 然后根据多项式分布兹 dn给该文档的第 i 个词语分配一个主题 z dn i = a. 在已知选定的主题 z dn i = a 的情况下,根据主题词语的 Dirichlet 先验分布[ 茁a1 ,茁a2 , 茁a3…茁aV ] T 生成的多项式分布[渍a1 ,渍a2 ,渍a3…渍aV ] T , 从词袋中抽取一个词语 w dn i . LDA 文本建模的主要问题就是求解文档鄄鄄主题和主题鄄鄄特征词分布参数矩阵兹和椎的值,本文使用 Gibbs 采样的方法来估算 LDA 的参数. 假设已知任意函数的条件分布 p(xi | x - i),其中 x - i = (x1 ,x2 ,…,xi - 1 ,xi + 1 ,…,xn ),通过马尔科夫链蒙特卡洛算法就可以得到联合分布. 首先建立 z 和 w 的联合分布,其数学表达式如式(2)所示: p(w,z| 琢,茁) = 乙兹乙椎 p(w,z,兹,椎| 琢,茁)d兹d椎(2) 给定 z 和 w 的联合分布,即可通过式(3) 来计算 Gibbs 采样的条件概率: p(z dn i = a |z 劭 dn 劭 i ,x,琢,茁) = p(z 劭 dn 劭 i ,z dn i = a | x,琢,茁) 移 K a忆 = 1 p(z 劭 dn 劭 i ,z dn i = a忆 | x,琢,茁) (3) 马尔科夫链平稳之后,给定一个采用的主题 z, 设定参数琢和茁,即可通过 EM 算法来估计分布参数矩阵兹和椎的值. LDA 建模构成了文本鄄鄄主题分布,但是缺少了词语本身之间的联系,只能在一定程度上表示文本数据. 为了更好地对文本进行表示,还需要利用 Skip鄄鄄Gram 模型来训练语料库,将所有的特征词映射到一定维度的向量空间中,将词语表示为向量. 在 Skip鄄鄄Gram 模型中,特征词作为输入层,上下文词作为输出层,即通过特征词来预测上下文词,具体的模型结构如图 3 所示. 使用 t I 表示输入层特征词的 P 维输入向量,复制和转置输入层到隐含层的权重矩阵 W 中的第 p 行,可以得到 Q 维隐含层 hp 的定义如式(4)所示: hp = W T p (4) 输出层上,输出 C 个多项式分布,输出都由相同的隐含和输出矩阵得到,如式(5)所示: P(t c,h = tO,c | t I) = yc,h = e uc,h 移 P h = 1 e uc,h (5) 式中,t c,h是输出层的第 c 个分布上的第 h 个特征词, tO,s是输出上下文词中实际的第 s 个词,t I 是唯一的输入词,yc,h是输出层第 c 个分布上的第 h 个单元的输出,uc,h是输出层第 c 个分布上的第 h 个单元的净输入. 由于输出层面共享相同的权重,则有: uc,h = uh = vth·hp (6) 其中,c = 1,2,…,C. vth表示第 h 个特征词的输出向 ·1210·

郑恒毅等：一种面向网络长文本的话题检测方法 ·1211· 输出层 (开始) T时刻舆情文本向量表示与T时刻的话题簇计算相似度输入层隐含层选择最大相似度值Max W 归入最大相似度是 Max是否的话题簇大于阈值丬创建新的话题簇处理完毕是结束) 图4基于时间窗口的Single-Pass聚类流程图3Skip-Gmm模型结构 Fig.4 Single-Pass clustering process based on time window Fig.3 Skip gram model structure 量，取自于隐含层到输出层的的权重向量图5所示)：最后将Word2vee得到的词向量与文本的TF- 1.计算文档集中所有文本两两之间的文本相似 DF向量进行融合，这样可以同时达到降维和文本度sim㎡(d:,d;),构建相似度矩阵 2.从相似度矩阵中找出最大相似度值Max(sim 向量化的目的.为了更加完整地表达文本信息，再加上文本主题的信息.在计算文本相似度时，分别 (d,d)对应的文档dnm、dn,此时Max的值小于设定的阈值直接跳到Step5,否则dn、dn合成一个话题计算LDA向量表示下和Word2vec&TF-IDF向量表类C 示下的余弦距离，两者加权融合 3.计算C与其他文本的相似度，更新相似度 L.3基于Single--Pass&HAC聚类算法的话题检测矩阵 Single-Pass适合流输入的文本处理，常用于新 4.是否满足预设话题数，否则跳到2. 闻话题检测中，该算法不需要预先设定聚类话题数， 5.聚类结束根据文本的输入先后顺序进行文本相似度的比较， HAC聚类可以将分散的文本精确的聚到不同第一篇文档归为第一类，后续的与之前的分类进行层级，但是由于计算过程中需要反复计算文本相似比较，如果满足相似度条件则归为一类，否则创建新度，在大量文本处理的情况下需要大量的存储，仅适的分类.但是这种方法需要预先设定阈值，并且分合少量文本的处理.而本文是在Single-Pass聚类之类效果好坏受限于文本输入顺序.本文在经典的后引入HAC聚类，仅是通过HAC聚类来合并相似 Single--Pass聚类的基础上进行了优化，首先是利用度较高的话题簇，Single-Pass聚类后话题簇远远小舆情发生的时间顺序作为文本的输入顺序，同时按于输入的文档数，此时再使用HAC聚类时，话题簇照时间窗口进行切分，时间窗口的单位可以选择/ 数是在合理数量范围内的. d/周，在此基础上，第T+1刻产生的舆情文本在第T: 时刻分好类的基础上，与其每个类簇的质心进行余 2实验结果与分析弦相似度计算，同样选出相似度最大值，超过阈值则 2.1实验数据与评价指标归到相似度最大值的话簇，反之创建一个新的话题 2.1.1实验数据簇，第T2时刻则在第T:,的基础上计相似度.反利用开源框架Scrapy和Beautiful Soup开发的复执行以上步骤，直到分类完毕.具体的流程如图4 主题爬虫，爬取了重庆大学校内论坛（民主湖论所示坛)、重庆大学贴吧、新浪微博（重庆大学相关）、重同时为了避免阈值对分类效果的较大影响，本庆大学新闻网等舆情数据，贴吧、论坛帖子总计文在Single--Pass的基础上加人了凝聚式层次聚类 6808条，评论、回复贴超过148539条，微博4711 (HAC).HAC聚类的流程(HAC的话题合并流程如条，转发的微博9537，微博的评论12634，新闻共

郑恒毅等: 一种面向网络长文本的话题检测方法图 3 Skip鄄鄄Gram 模型结构 Fig. 3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量. 最后将 Word2vec 得到的词向量与文本的 TF鄄鄄 IDF 向量进行融合,这样可以同时达到降维和文本向量化的目的. 为了更加完整地表达文本信息,再加上文本主题的信息. 在计算文本相似度时,分别计算 LDA 向量表示下和 Word2vec&TF鄄鄄IDF 向量表示下的余弦距离,两者加权融合. 1郾 3 基于 Single鄄鄄Pass & HAC 聚类算法的话题检测 Single鄄鄄Pass 适合流输入的文本处理,常用于新闻话题检测中,该算法不需要预先设定聚类话题数, 根据文本的输入先后顺序进行文本相似度的比较, 第一篇文档归为第一类,后续的与之前的分类进行比较,如果满足相似度条件则归为一类,否则创建新的分类. 但是这种方法需要预先设定阈值,并且分类效果好坏受限于文本输入顺序. 本文在经典的 Single鄄鄄Pass 聚类的基础上进行了优化,首先是利用舆情发生的时间顺序作为文本的输入顺序,同时按照时间窗口进行切分,时间窗口的单位可以选择 h / d / 周,在此基础上,第 Ti + 1刻产生的舆情文本在第 Ti 时刻分好类的基础上,与其每个类簇的质心进行余弦相似度计算,同样选出相似度最大值,超过阈值则归到相似度最大值的话簇,反之创建一个新的话题簇,第 Ti + 2时刻则在第 Ti + 1的基础上计相似度. 反复执行以上步骤,直到分类完毕. 具体的流程如图 4 所示. 同时为了避免阈值对分类效果的较大影响,本文在 Single鄄鄄Pass 的基础上加入了凝聚式层次聚类 (HAC). HAC 聚类的流程(HAC 的话题合并流程如图 4 基于时间窗口的 Single鄄鄄Pass 聚类流程 Fig. 4 Single鄄鄄Pass clustering process based on time window 图 5 所示): 1. 计算文档集中所有文本两两之间的文本相似度 sim(di,dj),构建相似度矩阵. 2. 从相似度矩阵中找出最大相似度值 Max(sim (di,dj)) 对应的文档 dm 、dn ,此时 Max 的值小于设定的阈值直接跳到 Step5,否则 dm 、dn 合成一个话题类 Ck . 3. 计算 Ck 与其他文本的相似度,更新相似度矩阵. 4. 是否满足预设话题数,否则跳到 2. 5. 聚类结束 HAC 聚类可以将分散的文本精确的聚到不同层级,但是由于计算过程中需要反复计算文本相似度,在大量文本处理的情况下需要大量的存储,仅适合少量文本的处理. 而本文是在 Single鄄鄄Pass 聚类之后引入 HAC 聚类,仅是通过 HAC 聚类来合并相似度较高的话题簇,Single鄄鄄 Pass 聚类后话题簇远远小于输入的文档数,此时再使用 HAC 聚类时,话题簇数是在合理数量范围内的. 2 实验结果与分析 2郾 1 实验数据与评价指标 2郾 1郾 1 实验数据利用开源框架 Scrapy 和 Beautiful Soup 开发的主题爬虫,爬取了重庆大学校内论坛( 民主湖论坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重庆大学新闻网等舆情数据,贴吧、论坛帖子总计 6808 条,评论、回复贴超过 148539 条, 微博 4711 条,转发的微博 9537,微博的评论 12634,新闻共 ·1211·

·1212· 工程科学学报.第41卷.第9期 (开始) 数设定为6. 2.基于LDA模型，话题数C设定为6. Single-Pass聚类后的话题簇 3.基于LDA文本表示和Single-Pass&HAC的聚类，话题数C设定为200. 建立话题篪间的相似度矩阵 4.基于Word2vec&TF-IDF文本表示和Single- 选择最大相似度值 Pass&HAC的聚类，Word2vee的维度设定在100. Max(sim(d.d》 5.基于LDA&Word2vec和Single--Pass&HAC的文是聚类，统一LDA的话题数设定为200，Word2vec维 Max是否否大于阀值T 度设定为100. 实验结果如表1所示合并两个话题簇，更新相似度矩阵表1各种聚类算法的性能和话题向量 Table 1 Performance of various clustering algorithms 话题族数聚类算法准确率召回率F值是否满足设定要求 VSM+K-Means 0.7050.7030.704 是 LDA 0.7280.7420.735 、结束 LDA +Single-Pass &HAC 0.7780.7990.789 图5HAC话题合并流程 Word2vec Single-Pass &HAC 0.7940.801 0.797 Fig.5 HAC topic merge process LDA&Word2vec +Single-Pass &HAC 0.833 0.845 0.839 2071条，所有文本总计184300条，选取了其中10 从表1可以看出，传统的基于VSM+K-Means 个话题，每个话题1000条文本用于实验. 的聚类算法由于只是单纯计算词语出现频率，缺少首先是中文分词，利用开源工具jiba,停用词了深层次的语义，因此算法的准确性和召回率都是表选用的哈工大和百度的词表.然后通过LDA训最差的，其次是LDA方法，LDA主题模型是可以分练文档集，话题数定为200，=0.1，B=0.25,得到析出文本-主题向量，但是LDA用于文本分类的效文本-主题的特征向量.之后在用Word2vec训练语果不尽如人意，原因是LDA计算的文本-主题的概料集，得到每个特征词的向量，再通过T℉-DF值与率模型，并不代表文本一定属于这个主题，同时由于 Word2vec的特征向量进行加权融合得到完整的文本表示. 本文话题数为6，因此LDA在计算时大大减少了文本的维度，丢失了高维文本信息.同时可以看出基 2.1.2实验评价指标文本聚类中常用的评价指标包括准确率(P)、于Single-Pass&HAC的聚类算法普遍好于K-Means 召回率(R)、F值.F值是准确率和召回率的几何加和LDA算法，而在文本向量表示方面，单一的LDA 权均值，可以更好的衡量话题检测精度，F值的具体或者Word2vec都不能完整的表示文本信息，基于表达如下： LDA&Word2vec的文本表示用于话题检测的效果明 F=(a2+1)pR 显高于单独使用LDA或Word2vec,因此可以看出基 a(P+R) (7) 于LDA&Word2vec和Single-Pass&HAC算法的通常，a=1,F值越大则表明聚类的效果越好. 话题检测效果优于其他方法. 2.2实验结果分析 2.2.2不同参数对聚类算法性能比较 2.2.1各种聚类算法性能比较在LDA&Word2vec和Single-Pass&HAC算法本次实验是为了验证基于LDA&Word2vec和中，影响性能的参数包括LDA的维数V,Word2vec Single--Pass&HAC的算法优于传统的VSM+K- 的维数Q,LDA和Word2vec的加强融合系数y,以 Means和LDA分类，以及在文本相似度计算时结合及Single--Pass的阈值T这四个参数.这四个参数的 LDA和Word2vec的效果好于单独使用LDA或者选择也直接影响算法的性能.通过对照试验来验证 Word2vec. 参数对算法的影响. 总共5组实验，分布如下：判断LDA和Word2vee的维度对实验结果的影 l.传统的VSM和KMeans结合的方式，聚类簇响，V取值为50、100、150、200，y=0.5,T=0.90,Q

工程科学学报,第 41 卷,第 9 期图 5 HAC 话题合并流程 Fig. 5 HAC topic merge process 2071 条,所有文本总计 184300 条,选取了其中 10 个话题,每个话题 1000 条文本用于实验. 首先是中文分词,利用开源工具 jieba,停用词表选用的哈工大和百度的词表. 然后通过 LDA 训练文档集,话题数定为 200,琢 = 0郾 1,茁 = 0郾 25,得到文本鄄鄄主题的特征向量. 之后在用 Word2vec 训练语料集,得到每个特征词的向量,再通过 TF鄄鄄IDF 值与 Word2vec 的特征向量进行加权融合得到完整的文本表示. 2郾 1郾 2 实验评价指标文本聚类中常用的评价指标包括准确率(P)、召回率(R)、F 值. F 值是准确率和召回率的几何加权均值,可以更好的衡量话题检测精度,F 值的具体表达如下: F = (a 2 + 1)P·R a 2 (P + R) (7) 通常,a = 1,F 值越大则表明聚类的效果越好. 2郾 2 实验结果分析 2郾 2郾 1 各种聚类算法性能比较本次实验是为了验证基于 LDA&Word2vec 和 Single鄄鄄Pass &HAC 的算法优于传统的 VSM + K鄄鄄 Means 和 LDA 分类,以及在文本相似度计算时结合 LDA 和 Word2vec 的效果好于单独使用 LDA 或者 Word2vec. 总共 5 组实验,分布如下: 1. 传统的 VSM 和 KMeans 结合的方式,聚类簇数设定为 6. 2. 基于 LDA 模型,话题数 C 设定为 6. 3. 基于 LDA 文本表示和 Single鄄鄄 Pass&HAC 的聚类,话题数 C 设定为 200. 4. 基于 Word2vec&TF鄄鄄 IDF 文本表示和 Single鄄鄄 Pass&HAC 的聚类,Word2vec 的维度设定在 100. 5. 基于 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 的聚类,统一 LDA 的话题数设定为 200,Word2vec 维度设定为 100. 实验结果如表 1 所示. 表 1 各种聚类算法的性能 Table 1 Performance of various clustering algorithms 聚类算法准确率召回率 F 值 VSM + K鄄鄄Means 0郾 705 0郾 703 0郾 704 LDA 0郾 728 0郾 742 0郾 735 LDA + Single鄄鄄Pass &HAC 0郾 778 0郾 799 0郾 789 Word2vec + Single鄄鄄Pass &HAC 0郾 794 0郾 801 0郾 797 LDA& Word2vec + Single鄄鄄Pass &HAC 0郾 833 0郾 845 0郾 839 从表 1 可以看出,传统的基于 VSM + K鄄鄄 Means 的聚类算法由于只是单纯计算词语出现频率,缺少了深层次的语义,因此算法的准确性和召回率都是最差的,其次是 LDA 方法,LDA 主题模型是可以分析出文本鄄鄄主题向量,但是 LDA 用于文本分类的效果不尽如人意,原因是 LDA 计算的文本鄄鄄主题的概率模型,并不代表文本一定属于这个主题,同时由于本文话题数为 6,因此 LDA 在计算时大大减少了文本的维度,丢失了高维文本信息. 同时可以看出基于 Single鄄鄄Pass&HAC 的聚类算法普遍好于 K鄄鄄Means 和 LDA 算法,而在文本向量表示方面,单一的 LDA 或者 Word2vec 都不能完整的表示文本信息,基于 LDA&Word2vec 的文本表示用于话题检测的效果明显高于单独使用 LDA 或 Word2vec,因此可以看出基于 LDA & Word2vec 和 Single鄄鄄 Pass & HAC 算法的话题检测效果优于其他方法. 2郾 2郾 2 不同参数对聚类算法性能比较在 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 算法中,影响性能的参数包括 LDA 的维数 V,Word2vec 的维数 Q,LDA 和 Word2vec 的加强融合系数酌,以及 Single鄄鄄Pass 的阈值 T 这四个参数. 这四个参数的选择也直接影响算法的性能. 通过对照试验来验证参数对算法的影响. 判断 LDA 和 Word2vec 的维度对实验结果的影响,V 取值为 50、100、150、200,酌 = 0郾 5,T = 0郾 90,Q ·1212·

点击进入文档下载页（PDF格式）

共7页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录