工程科学学报,第41卷,第9期:1208-1214,2019年9月 Chinese Journal of Engineering,Vol.41,No.9:1208-1214,September 2019 DOI:10.13374/j.issn2095-9389.2019.09.013;http://journals.ustb.edu.cn 一种面向网络长文本的话题检测方法 郑恒毅),廖城霖)四,李天柱) 1)重庆大学机械工程学院,重庆4000442)重庆大学自动化学院,重庆400044 ☒通信作者,E-mail:liaochenglinl127@gmail.com 摘要提出了一种面向网络长文本的话题检测方法.针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了Wod2vc &LDA(latent dirichlet allocation)的文本表示方法.将LDA提取的文本特征词隐含主题和Word2vec映射的特征词向量进行 加权融合既能够进行降维的作用又可以较为完整的表示出文本信息.针对传统话题发现方法对长文本输入顺序敏感问题,提 出了基于文本聚类的Single-Pass&HAC(hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次 聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率.为了评估所提出方法的有效性,本 文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验.实验结果证明,本文提出的方法相对 于现有的方法,如VSM(state vector space model)、Single-Pass等拥有更好的效果,话题检测的精度提高了l0%~20%. 关键词网络长文本:话题检测:文本表示:话题发现:文本聚类 分类号TP391.4 A topic detection method for network long text ZHENG Heng-yi,LIAO Cheng-lin)LI Tian-zhu) 1)College of Mechanical Engineering,Chongqing University,Chongqing 400044.China 2)College of Automation,Chongqing University,Chongqing 400044,China Corresponding author,E-mail:liaochenglinl127@gmail.com ABSTRACT Internet public opinion is an important source of people's views on social hotspots and national current affairs.Topic detection in network long text contributes toward the analysis of network public opinion.According to the results of topic detection,the policymaker can timely and reliably make scientific decisions.In general,topic detection can be divided into two steps,i.e.,repre- sentation learning and topic discovery.However,common representation learning methods,such as state vector space model (VSM) and term frequency-inverse document frequency,often lead to the problems of high dimensionality,sparsity,and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders.To overcome these,a novel topic detection method was presented herein.First,Word2vec latent Dirichlet allocation (LDA)-based methods for representation learning were proposed to avoid the problem of high-dimensional sparsity and neglect of latent semantics.Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information.Furthermore,Single-Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders.To evaluate the effectiveness and efficiency of the proposed method,extensive experiments were conducted on a real- world multi-source dataset,which was collected from university social platforms.The experimental results show that the proposed meth- od outperforms other methods,such as VSM and Single-Pass,by improving the clustering accuracy by 10%-20%. KEY WORDS network long text;topic detection;text representation;topic discovery;text cluster 收稿日期:2019-01-03
工程科学学报,第 41 卷,第 9 期:1208鄄鄄1214,2019 年 9 月 Chinese Journal of Engineering, Vol. 41, No. 9: 1208鄄鄄1214, September 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2019. 09. 013; http: / / journals. ustb. edu. cn 一种面向网络长文本的话题检测方法 郑恒毅1) , 廖城霖2) 苣 , 李天柱2) 1)重庆大学机械工程学院, 重庆 400044 2) 重庆大学自动化学院, 重庆 400044 苣通信作者, E鄄mail:liaochenglin1127@ gmail. com 摘 要 提出了一种面向网络长文本的话题检测方法. 针对文本表示的高维稀疏性和忽略潜在语义的问题,提出了 Word2vec & LDA (latent dirichlet allocation)的文本表示方法. 将 LDA 提取的文本特征词隐含主题和 Word2vec 映射的特征词向量进行 加权融合既能够进行降维的作用又可以较为完整的表示出文本信息. 针对传统话题发现方法对长文本输入顺序敏感问题,提 出了基于文本聚类的 Single鄄鄄Pass & HAC (hierarchical agglomerative clustering)的话题发现方法,在引入时间窗口和凝聚式层次 聚类的基础上对于文本的输入顺序具有了更强的鲁棒性,同时提高了聚类的精度和效率. 为了评估所提出方法的有效性,本 文从某大学社交平台收集了来自真实世界的多源数据集,并基于此进行了大量的实验. 实验结果证明,本文提出的方法相对 于现有的方法,如 VSM (state vector space model)、Single鄄鄄Pass 等拥有更好的效果,话题检测的精度提高了 10% ~ 20% . 关键词 网络长文本; 话题检测; 文本表示; 话题发现; 文本聚类 分类号 TP391郾 4 收稿日期: 2019鄄鄄01鄄鄄03 A topic detection method for network long text ZHENG Heng鄄yi 1) , LIAO Cheng鄄lin 2) 苣 , LI Tian鄄zhu 2) 1) College of Mechanical Engineering, Chongqing University, Chongqing 400044, China 2) College of Automation, Chongqing University, Chongqing 400044, China 苣Corresponding author, E鄄mail: liaochenglin1127@ gmail. com ABSTRACT Internet public opinion is an important source of people爷 s views on social hotspots and national current affairs. Topic detection in network long text contributes toward the analysis of network public opinion. According to the results of topic detection, the policymaker can timely and reliably make scientific decisions. In general, topic detection can be divided into two steps, i. e. , repre鄄 sentation learning and topic discovery. However, common representation learning methods, such as state vector space model (VSM) and term frequency鄄鄄inverse document frequency, often lead to the problems of high dimensionality, sparsity, and latent semantic loss, whereas traditional topic discovery methods depend heavily on the text input orders. To overcome these, a novel topic detection method was presented herein. First, Word2vec & latent Dirichlet allocation (LDA)鄄based methods for representation learning were proposed to avoid the problem of high鄄dimensional sparsity and neglect of latent semantics. Weighted fusion of the text feature word implicit topic extracted by LDA and the feature word vector of Word2vec mapping could not only perform dimensionality reduction but also completely represent text information. Furthermore, Single鄄鄄Pass and hierarchical agglomerative clustering for topic discovery could be more robust for input orders. To evaluate the effectiveness and efficiency of the proposed method, extensive experiments were conducted on a real鄄 world multi鄄source dataset, which was collected from university social platforms. The experimental results show that the proposed meth鄄 od outperforms other methods, such as VSM and Single鄄鄄Pass, by improving the clustering accuracy by 10% 鄄鄄20% . KEY WORDS network long text; topic detection; text representation; topic discovery; text cluster
郑恒毅等:一种面向网络长文本的话题检测方法 ·1209· 在网络长文本中进行话题检测可以在大量冗余 效地解决长文本表示存在的高维稀疏性问题,而且 文本数据中找到有价值的主题信息).在网络奥情 能够同时表示出文本的主题和特征词信息.针对传 分析系统中,网络事件具有突发性和快速传播性,及 统话题发现方法对长文本输入顺序敏感导致的聚类 时迅速地对网络长文本进行话题检测有助于相关监 时精度不高、效率低下的问题,本文研究了一种基于 管部门对于网络舆情进行科学地决策).在知识转 时间窗口Single-Pass&LDA的聚类算法,能有效减 移领域中,将知识库中的知识进行话题检测,可以除 小Single-Pass算法对于文本输入顺序敏感性,提高 去冗余数据并且将知识进行归类,可以提高后续知 话题检测的精度 识传输和吸收过程中的效率3] 网络长文本话题检测的主要任务是对大量文本 1基于文本表示与聚类的话题检测方法 数据进行聚类),从而进一步对人们关心的事件进 1.1基于LDA&Word2vec和Single-Pass&HAC 行发现.随着近几年互联网产业的快速发展,国内 的话题检测算法 的话题检测领域也涌现了不少具有影响力的成果. 本文首先研究了基于LDA和Word2vec融合的 例如,山东大学通过对校园网络文本进行Single- 文本特性向量表示,在分别计算了文本的LDA特征 Pass聚类分析,获取话题簇,提出了基于论坛和新闻 向量(主题-文本表示)和Word2vec的词向量与 的舆情分析系统[).北京邮电大学通过对论坛的文 T℉-DF相乘相加的结果后,运用基于时间窗口的 本分析6],利用简单的聚类方法进行主题发现,提 Single--Pass进行初步聚类,由于基于时间窗口的 出了基于论坛的话题发现与跟踪算法[-8).哈尔滨 Single--Pass算法的复杂度较低,可以同时与上一时 工业大学“基于论坛的舆情分析系统”[通过对论 刻的聚类话题簇进行相似度计算,在大量文本的输 坛文本的抽取,基于聚类的主题发现和句法分析的 入下快速形成凝聚度高、颗粒小的话题簇,再利用 情感倾向来获取论坛的热点信息,得到舆情信息 HAC算法将分散的话题簇通过相似度计算合并,最 对树络长文本进行话题检则主要分为两个步 终得到一个良好的聚类结果.具体的算法流程如图 骤:文本表示和话题发现.在文本表示方法中,经典 1所示. 的文本模型就是VSMo],VSM利用文本特征性的 1.2基于Word2vec&LDA的文本表示 权重表示文本,既而在向量空间表示文本的相似度, 文本数据无法直接输入到计算机进行处理的, VSM模型简单、操作方便,但是在大量文本数据情 需要进行结构化处理,利用向量来对文本进行表示. 况下存在高维度、数据稀疏等缺陷.近年来,越来越 在VSM模型中将所有文本数据用D={d,,d2,… 多学者开始将LDA[]应用到网络长文本的话题检 dn,…,dx}来表示,将所有特征词用T={t1,t2,…, 测[2-1),通过LDA模型的训练得到文本的潜在主 tu}表示,将每个文档表示为d={(w1,t1),(02, 题信息[4-15],进而有效地提取文本主题,实现话题 2),…,(0,4)},其中0表示i篇文档的t词的权 的检测.同时,随着深度学习的发展,有学者将词向 重.在本文中使用T℉-DF,即词频-反文档频率权 量模型16]引入到文本表示中,丰富了文本特征,加 重法来对权重进行计算.计算公式如式(1)所示: 强了话题检测的效果.在话题发现中,文本聚类是 N 常用的检测方法.聚类方法的好坏直接影响检测的 +0.01 结果,目前常用的聚类算法有K-Means(7],二分K- Means18】,Single--Pass]、层次聚类2o]等,也有学者 +0.01 将这些经典算法上优化或者组合,例如文献[21]在 式中为词语出现的频率,为逆向文件频率,N 传统K-Means的基础上优化了初始化聚类簇心,有 为文本总数 效地对新闻事件进行了检测.但是K-Means需要 基于VSM的话题检测过程中,直接利用特征词 事先设定类簇数量,聚类效果依赖初始化的类簇中 及其权重来直接比较两篇文档的相似度,这种方法 心,Single-Pass对输入顺序和阈值设置十分敏感,层 随着数据量的提升会出现维度灾难,并且无法找到 次聚类需要大量的时间,效率不高. 词语之间的隐含关系,常常忽略词语在上下文中的 本文从网络长文本的特性出发,针对文本表示 含义.因此将LDA模型引入,LDA假设每个特征词 的高维稀疏性和忽略潜在语义的问题,研究了一种 都是由一个隐含的主题抽取得到的,而一篇文本可 基于word2vec&LDA的文本向量化方法,不仅能有 以由多个不同概率分布的主题生成,每个主题又由
郑恒毅等: 一种面向网络长文本的话题检测方法 在网络长文本中进行话题检测可以在大量冗余 文本数据中找到有价值的主题信息[1] . 在网络舆情 分析系统中,网络事件具有突发性和快速传播性,及 时迅速地对网络长文本进行话题检测有助于相关监 管部门对于网络舆情进行科学地决策[2] . 在知识转 移领域中,将知识库中的知识进行话题检测,可以除 去冗余数据并且将知识进行归类,可以提高后续知 识传输和吸收过程中的效率[3] . 网络长文本话题检测的主要任务是对大量文本 数据进行聚类[4] ,从而进一步对人们关心的事件进 行发现. 随着近几年互联网产业的快速发展,国内 的话题检测领域也涌现了不少具有影响力的成果. 例如,山东大学通过对校园网络文本进行 Single鄄鄄 Pass 聚类分析,获取话题簇,提出了基于论坛和新闻 的舆情分析系统[5] . 北京邮电大学通过对论坛的文 本分析[6] ,利用简单的聚类方法进行主题发现,提 出了基于论坛的话题发现与跟踪算法[7鄄鄄8] . 哈尔滨 工业大学“基于论坛的舆情分析系统冶 [9] 通过对论 坛文本的抽取,基于聚类的主题发现和句法分析的 情感倾向来获取论坛的热点信息,得到舆情信息. 对网络长文本进行话题检测主要分为两个步 骤:文本表示和话题发现. 在文本表示方法中,经典 的文本模型就是 VSM [10] ,VSM 利用文本特征性的 权重表示文本,既而在向量空间表示文本的相似度, VSM 模型简单、操作方便,但是在大量文本数据情 况下存在高维度、数据稀疏等缺陷. 近年来,越来越 多学者开始将 LDA [11] 应用到网络长文本的话题检 测[12鄄鄄13] ,通过 LDA 模型的训练得到文本的潜在主 题信息[14鄄鄄15] ,进而有效地提取文本主题,实现话题 的检测. 同时,随着深度学习的发展,有学者将词向 量模型[16]引入到文本表示中,丰富了文本特征,加 强了话题检测的效果. 在话题发现中,文本聚类是 常用的检测方法. 聚类方法的好坏直接影响检测的 结果,目前常用的聚类算法有 K鄄鄄Means [17] ,二分 K鄄鄄 Means [18] 、Single鄄鄄Pass [19] 、层次聚类[20] 等,也有学者 将这些经典算法上优化或者组合,例如文献[21]在 传统 K鄄鄄Means 的基础上优化了初始化聚类簇心,有 效地对新闻事件进行了检测. 但是 K鄄鄄 Means 需要 事先设定类簇数量,聚类效果依赖初始化的类簇中 心,Single鄄鄄Pass 对输入顺序和阈值设置十分敏感,层 次聚类需要大量的时间,效率不高. 本文从网络长文本的特性出发,针对文本表示 的高维稀疏性和忽略潜在语义的问题,研究了一种 基于 word2vec & LDA 的文本向量化方法,不仅能有 效地解决长文本表示存在的高维稀疏性问题,而且 能够同时表示出文本的主题和特征词信息. 针对传 统话题发现方法对长文本输入顺序敏感导致的聚类 时精度不高、效率低下的问题,本文研究了一种基于 时间窗口 Single鄄鄄Pass & LDA 的聚类算法,能有效减 小 Single鄄鄄Pass 算法对于文本输入顺序敏感性,提高 话题检测的精度. 1 基于文本表示与聚类的话题检测方法 1郾 1 基于 LDA & Word2vec 和 Single鄄鄄Pass&HAC 的话题检测算法 本文首先研究了基于 LDA 和 Word2vec 融合的 文本特性向量表示,在分别计算了文本的 LDA 特征 向量(主题鄄鄄 文本表示) 和 Word2vec 的词向量与 TF鄄鄄IDF 相乘相加的结果后,运用基于时间窗口的 Single鄄鄄Pass 进行初步聚类,由于基于时间窗口的 Single鄄鄄Pass 算法的复杂度较低,可以同时与上一时 刻的聚类话题簇进行相似度计算,在大量文本的输 入下快速形成凝聚度高、颗粒小的话题簇,再利用 HAC 算法将分散的话题簇通过相似度计算合并,最 终得到一个良好的聚类结果. 具体的算法流程如图 1 所示. 1郾 2 基于 Word2vec & LDA 的文本表示 文本数据无法直接输入到计算机进行处理的, 需要进行结构化处理,利用向量来对文本进行表示. 在 VSM 模型中将所有文本数据用 D = { d1 ,d2 ,… dn ,…,dN }来表示,将所有特征词用 T = { t 1 ,t 2 ,…, tM }表示,将每个文档表示为 di = {(wi1 ,t 1 ),(wi2 , t 2 ),…,(wij,t j)},其中 wij表示 i 篇文档的 t j 词的权 重. 在本文中使用 TF鄄鄄 IDF,即词频鄄鄄 反文档频率权 重法来对权重进行计算. 计算公式如式(1)所示: wij = f t j·lg ( N f d t j + 0郾 01 ) 移 j沂 [ N f t j·lg ( N f d t j + 0郾 01 ) ] 2 (1) 式中,f t j为词语 t j 出现的频率,f d t j为逆向文件频率,N 为文本总数. 基于 VSM 的话题检测过程中,直接利用特征词 及其权重来直接比较两篇文档的相似度,这种方法 随着数据量的提升会出现维度灾难,并且无法找到 词语之间的隐含关系,常常忽略词语在上下文中的 含义. 因此将 LDA 模型引入,LDA 假设每个特征词 都是由一个隐含的主题抽取得到的,而一篇文本可 以由多个不同概率分布的主题生成,每个主题又由 ·1209·
·1210· 工程科学学报,第41卷,第9期 (开始 况下,根据主题词语的Dirichlet先验分布[B。,B.a, BaBv]T生成的多项式分布[p1,p2,poa…pv]I, 舆情文本 从词袋中抽取一个词语w.LDA文本建模的主要 文本预处理、 问题就是求解文档-主题和主题-特征词分布参数 分词 矩阵0和Φ的值,本文使用Gibbs采样的方法来估 LDA文本建模 Word2vec VSM空间 算LDA的参数 词向量构建 假设已知任意函数的条件分布p(x:Ix-:),其中 计算文本相似度 词向量与TF-DF 权重相乘相加 x-i=(x1,2,…,x-1x+1,…,xn),通过马尔科夫链 蒙特卡洛算法就可以得到联合分布.首先建立z和 计算文本相似度 w的联合分布,其数学表达式如式(2)所示: 两种文本 p(w.-Ia.B)-p(w.-.0.01o.B)d0d@(2) 相似度结合 给定z和w的联合分布,即可通过式(3)来计 基于时间窗口的 算Gibs采样的条件概率: Single-Pass聚类 p(2=alz,x,aB)= p(=al x,a,B) HAC话题合并 (3) p(,女=a1r,,B) 得到最终聚类 结果 马尔科夫链平稳之后,给定一个采用的主题:, 设定参数α和B,即可通过EM算法来估计分布参 「结束 数矩阵0和Φ的值 图1 Single-Pass&HAC算法流程 DA建模构成了文本-主题分布,但是缺少了 Fig.1 Single-Pass HAC algorithm flow 词语本身之间的联系,只能在一定程度上表示文本 多个不同概率的主题词来表达.LDA将文本数据抽 数据.为了更好地对文本进行表示,还需要利用 象为主题、文档、词语的一个贝叶斯概率模型.进行 Skip-Gram模型来训练语料库,将所有的特征词映 LDA建模过程图2所示,其中为每篇文档主题的 射到一定维度的向量空间中,将词语表示为向量. Dirichlet先验分布参数:0每篇文档的主题分布;z 在Skip-Gram模型中,特征词作为输入层,上下文词 为给词语分配的主题,共有K个,w为词袋中的一个 作为输出层,即通过特征词来预测上下文词,具体的 词语;为主题中的词语分布;B为每个主题词语分 模型结构如图3所示. 布的Dirichlet先验分布参数,词汇表中共有V个 使用t,表示输入层特征词的P维输入向量,复 词语. 制和转置输入层到隐含层的权重矩阵W中的第p 行,可以得到Q维隐含层h,的定义如式(4)所示: h。=w (4) 输出层上,输出C个多项式分布,输出都由相 同的隐含和输出矩阵得到,如式(5)所示: e"e& P(teh =to.elt)=yc.h= (5) 图2LDA建模过程图 Fig.2 LDA modeling process diagram 式中,t,是输出层的第c个分布上的第h个特征词, to是输出上下文词中实际的第s个词,1是唯一的 在LDA建模中,首先对于文本d,首先随机从 输入词,y,是输出层第c个分布上的第h个单元的 Dirichlet先验分布a=[a,a,a…a]T中选出 输出,“。,h是输出层第c个分布上的第h个单元的净 的一个主题多项式分布=[叫,时,…股]T, 输入.由于输出层面共享相同的权重,则有: 然后根据多项式分布给该文档的第i个词语分 ueh=uh=vhh。 (6) 配一个主题=a.在已知选定的主题=a的情 其中,c=1,2,…,C.y,表示第h个特征词的输出向
工程科学学报,第 41 卷,第 9 期 图 1 Single鄄鄄Pass & HAC 算法流程 Fig. 1 Single鄄鄄Pass & HAC algorithm flow 多个不同概率的主题词来表达. LDA 将文本数据抽 象为主题、文档、词语的一个贝叶斯概率模型. 进行 LDA 建模过程图 2 所示,其中 琢 为每篇文档主题的 Dirichlet 先验分布参数;兹 每篇文档的主题分布;z 为给词语分配的主题,共有 K 个,w 为词袋中的一个 词语;渍 为主题中的词语分布;茁 为每个主题词语分 布的 Dirichlet 先验分布参数,词汇表中共有 V 个 词语. 图 2 LDA 建模过程图 Fig. 2 LDA modeling process diagram 在 LDA 建模中,首先对于文本 dn ,首先随机从 Dirichlet 先验分布 琢 dn = [琢 dn 1 ,琢 dn 2 ,琢 dn 3 …琢 dn K ] T 中选出 的一个主题多项式分布 兹 dn = [ 兹 dn 1 ,兹 dn 2 ,兹 dn 3 …兹 dn K ] T , 然后根据多项式分布 兹 dn给该文档的第 i 个词语分 配一个主题 z dn i = a. 在已知选定的主题 z dn i = a 的情 况下,根据主题词语的 Dirichlet 先验分布[ 茁a1 ,茁a2 , 茁a3…茁aV ] T 生成的多项式分布[渍a1 ,渍a2 ,渍a3…渍aV ] T , 从词袋中抽取一个词语 w dn i . LDA 文本建模的主要 问题就是求解文档鄄鄄 主题和主题鄄鄄 特征词分布参数 矩阵 兹 和 椎 的值,本文使用 Gibbs 采样的方法来估 算 LDA 的参数. 假设已知任意函数的条件分布 p(xi | x - i),其中 x - i = (x1 ,x2 ,…,xi - 1 ,xi + 1 ,…,xn ),通过马尔科夫链 蒙特卡洛算法就可以得到联合分布. 首先建立 z 和 w 的联合分布,其数学表达式如式(2)所示: p(w,z| 琢,茁) = 乙 兹 乙 椎 p(w,z,兹,椎| 琢,茁)d兹d椎(2) 给定 z 和 w 的联合分布,即可通过式(3) 来计 算 Gibbs 采样的条件概率: p(z dn i = a |z 劭 dn 劭 i ,x,琢,茁) = p(z 劭 dn 劭 i ,z dn i = a | x,琢,茁) 移 K a忆 = 1 p(z 劭 dn 劭 i ,z dn i = a忆 | x,琢,茁) (3) 马尔科夫链平稳之后,给定一个采用的主题 z, 设定参数 琢 和 茁,即可通过 EM 算法来估计分布参 数矩阵 兹 和 椎 的值. LDA 建模构成了文本鄄鄄 主题分布,但是缺少了 词语本身之间的联系,只能在一定程度上表示文本 数据. 为了更好地对文本进行表示,还需要利用 Skip鄄鄄Gram 模型来训练语料库,将所有的特征词映 射到一定维度的向量空间中,将词语表示为向量. 在 Skip鄄鄄Gram 模型中,特征词作为输入层,上下文词 作为输出层,即通过特征词来预测上下文词,具体的 模型结构如图 3 所示. 使用 t I 表示输入层特征词的 P 维输入向量,复 制和转置输入层到隐含层的权重矩阵 W 中的第 p 行,可以得到 Q 维隐含层 hp 的定义如式(4)所示: hp = W T p (4) 输出层上,输出 C 个多项式分布,输出都由相 同的隐含和输出矩阵得到,如式(5)所示: P(t c,h = tO,c | t I) = yc,h = e uc,h 移 P h = 1 e uc,h (5) 式中,t c,h是输出层的第 c 个分布上的第 h 个特征词, tO,s是输出上下文词中实际的第 s 个词,t I 是唯一的 输入词,yc,h是输出层第 c 个分布上的第 h 个单元的 输出,uc,h是输出层第 c 个分布上的第 h 个单元的净 输入. 由于输出层面共享相同的权重,则有: uc,h = uh = vth·hp (6) 其中,c = 1,2,…,C. vth表示第 h 个特征词的输出向 ·1210·
郑恒毅等:一种面向网络长文本的话题检测方法 ·1211· 输出层 (开始) T时刻舆情文本 向量表示 与T时刻的话题簇 计算相似度 输入层 隐含层 选择最大 相似度值Max W 归入最大相似度是 Max是否 的话题簇 大于阈值 丬创建新的话题簇 处理完毕 是 结束) 图4基于时间窗口的Single-Pass聚类流程 图3Skip-Gmm模型结构 Fig.4 Single-Pass clustering process based on time window Fig.3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量 图5所示): 最后将Word2vee得到的词向量与文本的TF- 1.计算文档集中所有文本两两之间的文本相似 DF向量进行融合,这样可以同时达到降维和文本 度sim㎡(d:,d;),构建相似度矩阵 2.从相似度矩阵中找出最大相似度值Max(sim 向量化的目的.为了更加完整地表达文本信息,再 加上文本主题的信息.在计算文本相似度时,分别 (d,d)对应的文档dnm、dn,此时Max的值小于设 定的阈值直接跳到Step5,否则dn、dn合成一个话题 计算LDA向量表示下和Word2vec&TF-IDF向量表 类C 示下的余弦距离,两者加权融合 3.计算C与其他文本的相似度,更新相似度 L.3基于Single--Pass&HAC聚类算法的话题检测 矩阵 Single-Pass适合流输入的文本处理,常用于新 4.是否满足预设话题数,否则跳到2. 闻话题检测中,该算法不需要预先设定聚类话题数, 5.聚类结束 根据文本的输入先后顺序进行文本相似度的比较, HAC聚类可以将分散的文本精确的聚到不同 第一篇文档归为第一类,后续的与之前的分类进行 层级,但是由于计算过程中需要反复计算文本相似 比较,如果满足相似度条件则归为一类,否则创建新 度,在大量文本处理的情况下需要大量的存储,仅适 的分类.但是这种方法需要预先设定阈值,并且分 合少量文本的处理.而本文是在Single-Pass聚类之 类效果好坏受限于文本输入顺序.本文在经典的 后引入HAC聚类,仅是通过HAC聚类来合并相似 Single--Pass聚类的基础上进行了优化,首先是利用 度较高的话题簇,Single-Pass聚类后话题簇远远小 舆情发生的时间顺序作为文本的输入顺序,同时按 于输入的文档数,此时再使用HAC聚类时,话题簇 照时间窗口进行切分,时间窗口的单位可以选择/ 数是在合理数量范围内的. d/周,在此基础上,第T+1刻产生的舆情文本在第T: 时刻分好类的基础上,与其每个类簇的质心进行余 2实验结果与分析 弦相似度计算,同样选出相似度最大值,超过阈值则 2.1实验数据与评价指标 归到相似度最大值的话簇,反之创建一个新的话题 2.1.1实验数据 簇,第T2时刻则在第T:,的基础上计相似度.反 利用开源框架Scrapy和Beautiful Soup开发的 复执行以上步骤,直到分类完毕.具体的流程如图4 主题爬虫,爬取了重庆大学校内论坛(民主湖论 所示 坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重 同时为了避免阈值对分类效果的较大影响,本 庆大学新闻网等舆情数据,贴吧、论坛帖子总计 文在Single--Pass的基础上加人了凝聚式层次聚类 6808条,评论、回复贴超过148539条,微博4711 (HAC).HAC聚类的流程(HAC的话题合并流程如 条,转发的微博9537,微博的评论12634,新闻共
郑恒毅等: 一种面向网络长文本的话题检测方法 图 3 Skip鄄鄄Gram 模型结构 Fig. 3 Skip gram model structure 量,取自于隐含层到输出层的的权重向量. 最后将 Word2vec 得到的词向量与文本的 TF鄄鄄 IDF 向量进行融合,这样可以同时达到降维和文本 向量化的目的. 为了更加完整地表达文本信息,再 加上文本主题的信息. 在计算文本相似度时,分别 计算 LDA 向量表示下和 Word2vec&TF鄄鄄IDF 向量表 示下的余弦距离,两者加权融合. 1郾 3 基于 Single鄄鄄Pass & HAC 聚类算法的话题检测 Single鄄鄄Pass 适合流输入的文本处理,常用于新 闻话题检测中,该算法不需要预先设定聚类话题数, 根据文本的输入先后顺序进行文本相似度的比较, 第一篇文档归为第一类,后续的与之前的分类进行 比较,如果满足相似度条件则归为一类,否则创建新 的分类. 但是这种方法需要预先设定阈值,并且分 类效果好坏受限于文本输入顺序. 本文在经典的 Single鄄鄄Pass 聚类的基础上进行了优化,首先是利用 舆情发生的时间顺序作为文本的输入顺序,同时按 照时间窗口进行切分,时间窗口的单位可以选择 h / d / 周,在此基础上,第 Ti + 1刻产生的舆情文本在第 Ti 时刻分好类的基础上,与其每个类簇的质心进行余 弦相似度计算,同样选出相似度最大值,超过阈值则 归到相似度最大值的话簇,反之创建一个新的话题 簇,第 Ti + 2时刻则在第 Ti + 1的基础上计相似度. 反 复执行以上步骤,直到分类完毕. 具体的流程如图 4 所示. 同时为了避免阈值对分类效果的较大影响,本 文在 Single鄄鄄Pass 的基础上加入了凝聚式层次聚类 (HAC). HAC 聚类的流程(HAC 的话题合并流程如 图 4 基于时间窗口的 Single鄄鄄Pass 聚类流程 Fig. 4 Single鄄鄄Pass clustering process based on time window 图 5 所示): 1. 计算文档集中所有文本两两之间的文本相似 度 sim(di,dj),构建相似度矩阵. 2. 从相似度矩阵中找出最大相似度值 Max(sim (di,dj)) 对应的文档 dm 、dn ,此时 Max 的值小于设 定的阈值直接跳到 Step5,否则 dm 、dn 合成一个话题 类 Ck . 3. 计算 Ck 与其他文本的相似度,更新相似度 矩阵. 4. 是否满足预设话题数,否则跳到 2. 5. 聚类结束 HAC 聚类可以将分散的文本精确的聚到不同 层级,但是由于计算过程中需要反复计算文本相似 度,在大量文本处理的情况下需要大量的存储,仅适 合少量文本的处理. 而本文是在 Single鄄鄄Pass 聚类之 后引入 HAC 聚类,仅是通过 HAC 聚类来合并相似 度较高的话题簇,Single鄄鄄 Pass 聚类后话题簇远远小 于输入的文档数,此时再使用 HAC 聚类时,话题簇 数是在合理数量范围内的. 2 实验结果与分析 2郾 1 实验数据与评价指标 2郾 1郾 1 实验数据 利用开源框架 Scrapy 和 Beautiful Soup 开发的 主题爬虫,爬取了重庆大学校内论坛( 民主湖论 坛)、重庆大学贴吧、新浪微博(重庆大学相关)、重 庆大学新闻网等舆情数据,贴吧、论坛帖子总计 6808 条,评论、回复贴超过 148539 条, 微博 4711 条,转发的微博 9537,微博的评论 12634,新闻共 ·1211·
·1212· 工程科学学报.第41卷.第9期 (开始) 数设定为6. 2.基于LDA模型,话题数C设定为6. Single-Pass聚类后 的话题簇 3.基于LDA文本表示和Single-Pass&HAC的 聚类,话题数C设定为200. 建立话题篪间的 相似度矩阵 4.基于Word2vec&TF-IDF文本表示和Single- 选择最大相似度值 Pass&HAC的聚类,Word2vee的维度设定在100. Max(sim(d.d》 5.基于LDA&Word2vec和Single--Pass&HAC的 文是 聚类,统一LDA的话题数设定为200,Word2vec维 Max是否 否 大于阀值T 度设定为100. 实验结果如表1所示 合并两个话题簇, 更新相似度矩阵 表1各种聚类算法的性能 和话题向量 Table 1 Performance of various clustering algorithms 话题族数 聚类算法 准确率召回率F值 是否满足设定 要求 VSM+K-Means 0.7050.7030.704 是 LDA 0.7280.7420.735 、结束 LDA +Single-Pass &HAC 0.7780.7990.789 图5HAC话题合并流程 Word2vec Single-Pass &HAC 0.7940.801 0.797 Fig.5 HAC topic merge process LDA&Word2vec +Single-Pass &HAC 0.833 0.845 0.839 2071条,所有文本总计184300条,选取了其中10 从表1可以看出,传统的基于VSM+K-Means 个话题,每个话题1000条文本用于实验. 的聚类算法由于只是单纯计算词语出现频率,缺少 首先是中文分词,利用开源工具jiba,停用词 了深层次的语义,因此算法的准确性和召回率都是 表选用的哈工大和百度的词表.然后通过LDA训 最差的,其次是LDA方法,LDA主题模型是可以分 练文档集,话题数定为200,=0.1,B=0.25,得到 析出文本-主题向量,但是LDA用于文本分类的效 文本-主题的特征向量.之后在用Word2vec训练语 果不尽如人意,原因是LDA计算的文本-主题的概 料集,得到每个特征词的向量,再通过T℉-DF值与 率模型,并不代表文本一定属于这个主题,同时由于 Word2vec的特征向量进行加权融合得到完整的文 本表示. 本文话题数为6,因此LDA在计算时大大减少了文 本的维度,丢失了高维文本信息.同时可以看出基 2.1.2实验评价指标 文本聚类中常用的评价指标包括准确率(P)、 于Single-Pass&HAC的聚类算法普遍好于K-Means 召回率(R)、F值.F值是准确率和召回率的几何加 和LDA算法,而在文本向量表示方面,单一的LDA 权均值,可以更好的衡量话题检测精度,F值的具体 或者Word2vec都不能完整的表示文本信息,基于 表达如下: LDA&Word2vec的文本表示用于话题检测的效果明 F=(a2+1)pR 显高于单独使用LDA或Word2vec,因此可以看出基 a(P+R) (7) 于LDA&Word2vec和Single-Pass&HAC算法的 通常,a=1,F值越大则表明聚类的效果越好. 话题检测效果优于其他方法. 2.2实验结果分析 2.2.2不同参数对聚类算法性能比较 2.2.1各种聚类算法性能比较 在LDA&Word2vec和Single-Pass&HAC算法 本次实验是为了验证基于LDA&Word2vec和 中,影响性能的参数包括LDA的维数V,Word2vec Single--Pass&HAC的算法优于传统的VSM+K- 的维数Q,LDA和Word2vec的加强融合系数y,以 Means和LDA分类,以及在文本相似度计算时结合 及Single--Pass的阈值T这四个参数.这四个参数的 LDA和Word2vec的效果好于单独使用LDA或者 选择也直接影响算法的性能.通过对照试验来验证 Word2vec. 参数对算法的影响. 总共5组实验,分布如下: 判断LDA和Word2vee的维度对实验结果的影 l.传统的VSM和KMeans结合的方式,聚类簇 响,V取值为50、100、150、200,y=0.5,T=0.90,Q
工程科学学报,第 41 卷,第 9 期 图 5 HAC 话题合并流程 Fig. 5 HAC topic merge process 2071 条,所有文本总计 184300 条,选取了其中 10 个话题,每个话题 1000 条文本用于实验. 首先是中文分词,利用开源工具 jieba,停用词 表选用的哈工大和百度的词表. 然后通过 LDA 训 练文档集,话题数定为 200,琢 = 0郾 1,茁 = 0郾 25,得到 文本鄄鄄主题的特征向量. 之后在用 Word2vec 训练语 料集,得到每个特征词的向量,再通过 TF鄄鄄IDF 值与 Word2vec 的特征向量进行加权融合得到完整的文 本表示. 2郾 1郾 2 实验评价指标 文本聚类中常用的评价指标包括准确率(P)、 召回率(R)、F 值. F 值是准确率和召回率的几何加 权均值,可以更好的衡量话题检测精度,F 值的具体 表达如下: F = (a 2 + 1)P·R a 2 (P + R) (7) 通常,a = 1,F 值越大则表明聚类的效果越好. 2郾 2 实验结果分析 2郾 2郾 1 各种聚类算法性能比较 本次实验是为了验证基于 LDA&Word2vec 和 Single鄄鄄Pass &HAC 的算法优于传统的 VSM + K鄄鄄 Means 和 LDA 分类,以及在文本相似度计算时结合 LDA 和 Word2vec 的效果好于单独使用 LDA 或者 Word2vec. 总共 5 组实验,分布如下: 1. 传统的 VSM 和 KMeans 结合的方式,聚类簇 数设定为 6. 2. 基于 LDA 模型,话题数 C 设定为 6. 3. 基于 LDA 文本表示和 Single鄄鄄 Pass&HAC 的 聚类,话题数 C 设定为 200. 4. 基于 Word2vec&TF鄄鄄 IDF 文本表示和 Single鄄鄄 Pass&HAC 的聚类,Word2vec 的维度设定在 100. 5. 基于 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 的 聚类,统一 LDA 的话题数设定为 200,Word2vec 维 度设定为 100. 实验结果如表 1 所示. 表 1 各种聚类算法的性能 Table 1 Performance of various clustering algorithms 聚类算法 准确率 召回率 F 值 VSM + K鄄鄄Means 0郾 705 0郾 703 0郾 704 LDA 0郾 728 0郾 742 0郾 735 LDA + Single鄄鄄Pass &HAC 0郾 778 0郾 799 0郾 789 Word2vec + Single鄄鄄Pass &HAC 0郾 794 0郾 801 0郾 797 LDA& Word2vec + Single鄄鄄Pass &HAC 0郾 833 0郾 845 0郾 839 从表 1 可以看出,传统的基于 VSM + K鄄鄄 Means 的聚类算法由于只是单纯计算词语出现频率,缺少 了深层次的语义,因此算法的准确性和召回率都是 最差的,其次是 LDA 方法,LDA 主题模型是可以分 析出文本鄄鄄主题向量,但是 LDA 用于文本分类的效 果不尽如人意,原因是 LDA 计算的文本鄄鄄 主题的概 率模型,并不代表文本一定属于这个主题,同时由于 本文话题数为 6,因此 LDA 在计算时大大减少了文 本的维度,丢失了高维文本信息. 同时可以看出基 于 Single鄄鄄Pass&HAC 的聚类算法普遍好于 K鄄鄄Means 和 LDA 算法,而在文本向量表示方面,单一的 LDA 或者 Word2vec 都不能完整的表示文本信息,基于 LDA&Word2vec 的文本表示用于话题检测的效果明 显高于单独使用 LDA 或 Word2vec,因此可以看出基 于 LDA & Word2vec 和 Single鄄鄄 Pass & HAC 算法的 话题检测效果优于其他方法. 2郾 2郾 2 不同参数对聚类算法性能比较 在 LDA&Word2vec 和 Single鄄鄄 Pass&HAC 算 法 中,影响性能的参数包括 LDA 的维数 V,Word2vec 的维数 Q,LDA 和 Word2vec 的加强融合系数 酌,以 及 Single鄄鄄Pass 的阈值 T 这四个参数. 这四个参数的 选择也直接影响算法的性能. 通过对照试验来验证 参数对算法的影响. 判断 LDA 和 Word2vec 的维度对实验结果的影 响,V 取值为 50、100、150、200,酌 = 0郾 5,T = 0郾 90,Q ·1212·