第5卷第2期 智能系统学报 Vol.5 No.2 2010年4月 CAAI Transactions on Intelligent Systems Apr.2010 doi:10.3969/i.issn.1673-4785.2010.02.012 主题模型LDA的多文档自动文摘 杨潇1,马军2,杨同峰2,杜言琦2,邵海敏2 (1.山东经济学院信息管理学院,山东济南250014:2.山东大学计算机科学与技术学院,山东济南250101) 摘要:近年来使用概率主题模型表示多文档文摘问题受到研究者的关注.LDA(latent dirichlet allocation)是主题模 型中具有代表性的概率生成性模型之一.提出了一种基于DA的文摘方法,该方法以混乱度确定DA模型的主题 数目,以Gs抽样获得模型中句子的主题概率分布和主题的词汇概率分布,以句子中主题权重的加和确定各个主 题的重要程度,并根据LD模型中主题的概率分布和句子的概率分布提出了2种不同的句子权重计算模型.实验中 使用ROUGE评测标准,与代表最新水平的SumBasic方法和其他2种基于LDA的多文档自动文摘方法在通用型多 文档摘要测试集DUC20O2上的评测数据进行比较,结果表明提出的基于LDA的多文档自动文摘方法在ROUGE的 各个评测标准上均优于SumBasic方法,与其他基于LDA模型的文摘相比也具有优势. 关键词:多文档自动文摘;句子分值计算;主题模型;LDA;主题数目 中图分类号:TP391文献标识码:A文章编号:16734785(2010)02016908 Automatic multi-document summarization based on the latent Dirichlet topic allocation model YANG Xiao',MA Jun2,YANG Tong-feng2,DU Yan-qi2,SHAO Hai-min2 (1.School of Information Management,Shandong Economic University,Ji'nan 250014,China;2.School of Computer Science and Technology,Shandong University,Ji'nan 250101,China) Abstract:The representative problem of multi-document summarization using probabilistic topic models has begun receiving considerable attention.A multi-document summarization method was proposed based on the latent dirichlet allocation (LDA)model,itself a model representative of probabilistic generative topic models.In this method,the number of topics in the LDA model was determined by model perplexity,and the probabilistic sentence distribution on topics and the probabilistic topic distribution on words were obtained by the Gibbs sampling method. The importance of topics was determined by the sum of topic weights on all sentences.Two sentence-scoring meth- ods were proposed,one based on sentence distribution and the other on topic distribution.Evaluated by the recall- oriented understudy for gisting evaluation (ROUGE)metrics,results of the both proposed methods surpassed the state-of-the-art SumBasic system and the other two LDA based summarization systems for all the ROUGE scores on the DUC2002 generic multi-document summarization test set. Keywords:multi-document summarization;sentence scoring;topic model;latent dirichlet allocation;number of topics 多文档自动文摘是对内容相关的多篇文本进行 量的激增,在近几年又重新兴起.自动文摘按照摘要 分析,并产生可以表达重要信息的摘要文本的过程, 目的的不同可以分为通用型文摘(generic summari- 其中摘要文本长度需满足指定长度的要求.它作 zation)和基于查询的文摘(query-based summariza- 为自然语言处理和信息检索中最古老的问题之一, ion).通用型文摘提取反映作者意图的总结性文 随着移动设备、互联网的广泛应用,用户面临的信息 字,而基于查询的文摘则给出与用户查询相关联的 摘要2].按照摘要产生方法的不同自动文摘可以分 收稿日期:20100105. 基金项目:国家自然科学基金资助项目(60970047);山东省自然科学 为抽取式文摘(extract)和理解式文摘(abstract).抽 基金资助项目(Y2008G19);山东省科技计划资助项目 (2007GG10001002,2008GG10001026). 取式文摘计算句子的分值,直接从原文中抽取重要 通信作者:杨谦.E-mail:yang@mail.sdu.edu.cn. 的句子作为文摘句;而理解式文摘则通过对文章进
·170 智能系统学报 第5卷 行句法、语义和篇章结构的分析获取文档的意义,再 文摘评价模型选择句子,使用贪心算法添加句子 通过自然语言生成得到满足要求的文摘「3).虽然抽 Chang和Chien6]对文档和单个的句子分别执 取式的文摘方法经常会产生缺乏连贯性的文摘,但 行LDA,然后通过计算句子语言模型和文档语言模 其产生的文摘对人类浏览和判断是有帮助的[4].且 型之间的KL散度对句子进行排序.为了充分地表 由于理解式文摘中涉及的多个自然语言处理问题目 示词汇、句子和文档之间的关系,又提出了SLDA, 前没有良好的解决方法,而抽取式文摘则避免了篇 为词汇、句子、主题和文档建立4层LDA模型,并使 章分析、连贯句子的生成等难题,目前的研究大都使 用变分推断估计参数,通过计算句子语言模型和文 用抽取式的文摘方式。 档语言模型之间的KL-散度对句子进行排序】 抽取式文摘中的主要问题是句子权重的计算问 题.常用的句子权重计算方法有简单的基于词频的 2主题模型LDA 方法5、基于主题聚类的方法6、基于图的方法 主题模型是一种生成性的概率模型,一般基于 和基于语言分析的方法[等。 如下观点构建:文档是主题上的概率分布;而主题则 以LDA(latent dirichlet allocation)[io]及其扩展 是词汇上的概率分布.不同的主题模型做了不同的 为代表的主题模型广泛应用于文档、图像等信息的 概率假设:由于主题在词上的概率分布是相关词项 建模.近年来,开始有学者关注其在自动文摘方面的 上的连贯聚类,因此单个的主题都是可解释的, 应用),本文基于LDA模型,以句子作为处理单 2.1LDA模型简介 元,根据LDA模型中主题的概率分布和句子的概率 LDA模型是一种常用的主题模型,由Blei等人 分布提出了2种句子权重计算模型. 于2003年提出.它是一个生成性的3层贝叶斯网 络,将词和文档通过潜在的主题相关联.类似于许多 1 相关工作 概率模型,LDA中也做了词袋(bag of words)假设, Chen等[4提出了一种结合句子生成概率和先 即在模型中不考虑词汇的顺序而只考虑他们的出现 验概率完成句子排序的广播新闻演讲文摘的抽取, 次数 其中句子的生成概率的方法来考察了句子主题混合 LDA模型是一个描述如何基于潜在主题生成 模型(STMM)和词主题混合模型(WTMM)2种概念 文档中词的概率抽样过程,其生成过程如下: 匹配形式,混合模型的参数则根据文档的标题由期 1)从Dirichlet先验B中为每个主题k抽取多项 望最大化(EM)算法训练得到. 式分布中k,共抽取K个分布; Arora等[2]同样使用LDA作为文档的表示模 2)从Dirichlet先验a中为每个文档wm抽取多 型,但其以文档作为LDA的处理单元,提出了基于 项式分布0m,共抽取M个分布; 推论的、半生成性和全生成性的3种句子选择形式 3)对语料库中所有文档Wm和文档中所有词汇 效果最好的是基于推论的方法,其中句子的概率为 10n: 归一化后的词汇概率加和.在文献[13]中,Aora等 ①从多项式变量0m中抽取主题m; 在使用LDA得到单词的权重后,将句子看作单词权 ②从多项式变量中.中抽取词0· 重的向量.每个句子对应一个主题,主题则为所有属 其中K为主题个数,M为文档个数.模型中的 于该主题的句子的向量,最终将主题表示为单词的 主要变量为主题一词分布“中”和文档一主题分布 权重矩阵.然后使用SVD求解句子集的正交表示, “0”.由于直接使用EM算法估计中和0会存在局 作为选择文摘句的依据,从而降低文摘中信息的冗 部极值的问题,对于给定的观察词wm,利用Gibbs抽 余度.Shafiei5提出类似于3层生成模型LDA模型 样取词汇在主题:上后验概率P(.|z)的近似值. 的4层模型Co-Clustering Model,由于该模型表示为 在Gbbs抽样中,先固定其他词的主题分配(z-n), 词、片段、主题、文档4层结构,若将片段选择为句 然后估计当前词项wn赋各种主题的概率p(n=). 子,则该方法可以为词、句子和文档建立统一的生成 边缘化中和0间接求得中和0的值: 模型.研究者们将该模型应用于文摘中: Haghighi等使用层次LDA主题模型的变种, P(zn =jl z-n,wmn,a,B)o B 一X ∑(G+R 将句子、文档和文档集合统一纳入到主题模型中,使 用Gbs抽样获得模型参数,同时考虑到文档集的 Cm (1) 综合主题和特定主题2个方面,并以KL散度作为
第2期 杨满,等:主题模型LDA的多文档自动文摘 ·171· 式中:C和CM分别为维数V×K和M×K的数量 在句子混合成分中所占的权重后,句子集合中主题 矩阵,V为词汇个数.Cw为词0赋主题j的频数, 的重要度可以使用句子集合包含的所有句子中主题 其中不包含当前记号实例n;C“w为文档d中分配 混合成分权重的加和来计算,并在所有主题上进行 给主题j的词汇个数,其中不包含当前实例;由于 归一化以保证该值为合适的概率值: w.不仅代表词汇0,而且与该词所在的文本位置相 关,因此称之为记号.一旦词的某些记号赋给了主题 P(zI D)=- (3) ,就增加了给任一特定的记号赋予主题j的概率;同 样地,若主题j在一个文档中使用了多次,则该文档 式中:N为文档集中句子的个数,K为文档集中主题 的个数. 中的任意词赋给主题j的概率也将增加.因此,词赋 3.2概率生成模型(ProbGenSum) 予某一主题的概率不仅与该词跟主题的相近程度有 句子集中词汇的重要程度由词汇与主题的相似 关,而且与文档中该主题的重要程度有关 度和主题的重要程度共同决定,在概率生成性主题 2.2 Gibbs抽样 模型中,词汇的概率可以由式(4)计算: 首先为词汇记号赋[1.·K]之间的一个随机主 题,构成初始的Markov链;对于文档中的所有词汇 P(olD)=∑P(wlg)×P(lD.(4) 记号,根据式(1)给它分配主题,获取Markov链的 式中:K为主题个数,P(ola)为主题在词汇w上 下一个状态;迭代足够次后使得Markov链达到稳定 的概率,在使用Gibbs抽样的LDA中即为参数 状态 b》,而P(D)为主题名的重要度,由式(3)中的 抽样算法为每个单词直接估计其主题:,0值和 方法获得. 中值则由式(2)获得: 句子的权重可由句子所包含词的权重获得,由 功=、 C0w+Be时 于概率P(wD)为[0,1]之间的值,若使用概率的乘 B.) 积计算句子的概率即P(wID)=ⅡesP(oI C+a D)(s),则短句子占优势,但一般来说在文档中句 9=(c+ae (2) 子越短,其包含的信息量也越少,本文中使用词汇概 率的加和作为句子的权重.在这种情况下,长句子的 中值为从主题j中抽样新词记号0的预测,而 概率值将比短句子高,在选择文摘句时占据优势.且 0为在文档Wm中从主题j抽取新词的预测. 包含具有较高概率值词汇的短句也将获得较高的概 3 基于LDA的多文档自动文摘 率值,选出的句子并非都是长句子.文摘模型Pob GenSum中句子的权重由式(5)计算: 对于给定的文档集合D={D,…,Dw},各文档D P(SID)=∑.egn(0,S)×P(o|D).(5) 中包含句子集合D={s1,…,$.为简单起见,本文中 式中:n(w,S)为词w在句子S中出现的次数, 将文档集合表示为该集合所有文档中句子的集合,即 P(oID)为词o的概率值 D={s1,…,wi,其中s∈D当且仅当s∈D∈D. 3.3句子生成模型(SentGenSum) 以文档集合中的句子作为LDA输入的文档,句 在概率生成模型中,文档集D中句子S的重要 子集合作为LDA的文档集合,使用LDA为句子集 性表示为P(S1D),即给定文档集D时句子S的后 合D建模,并使用Gibbs抽样进行参数估计,得到句 验概率.根据贝叶斯法则,P(S1D)可表示为 子在主题上的分布和主题在词汇上的分布 ”.基于这2个分布,提出了2种不同的句子权 P(SI D)=P(DI S)P(S) (6) P(D) 重计算方法. 式中:P(D1S)为句子的生成概率,即文档集D由句子S 文档中词汇的重要度不仅与该词汇所赋主题的 生成的可能性,P(S)为句子S重要性的先验概率, 相似度有关,而且与所赋主题的重要度有关词汇与 P(D)为文档集D的先验概率将文档集中的词作为输 所赋主题的相似度由:》计算,主题的重要度则 入观察序列,则句子由预测文档集的分布构成,可以将 由0得到. 句子看作文档集的生成模型.文档集的概率P(D)对所 3.1主题的重要度 有句子都是相同的,不影响句子的排序,因此在计算句 在LDA模型中主题的重要度与其混合成分的 子分值时可将其忽略.本文假设句子的先验概率相同, 比例和超参数α有关由Gibbs算法计算出各主题 则句子的分值只与其句子生成概率相关根据句子生
·172 智能系统学报 第5卷 成概率P(D1S)对文档中的句子进行排序,选出具有最 数需要单独设定.对各文档集来说可变量包括α、B 高概率值的句子形成摘要 和主题数目K.一种较好的超参数α和B的选择方 在基于主题模型LDA的生成性文摘方法中,文 式应与主题的数量和词汇表的尺寸相关本文中 档中的句子S可以解释为主题的概率混合模型.在 根据主题数目变化,取经验值α=50/K,B取固定的 该模型中一个句子可以属于多个主题,同时使用K 经验值B=0.0118]」 个主题和每个主题在句子中对应的权重预测文档中 LDA模型的性能受到主题数目的影响,需预先 的单词.给定句子S时文档集D的概率表示为 设定主题数目K确定主题数目的方法有多种:使用 P(D1S)=Π.D[∑P(wl)· 非参数化主题模型HDP(hierarchical dirichlet P(zIS)D) (7) process)的方法9]、使用层次聚类的方法[2o]和使用 式中:n(w,D)为词w在句子集中D出现的次数, 模型混乱度分析的方法21]等.本文使用混乱度确定 模型主题数目. P(w|z)和P(a.IS)分别为词w在潜在主题ak上的 概率和主题z。在句子S的概率.在使用Gibbs抽样 文档集上模型的混乱度为文档集中包含的各句 的LDA模型中,这2个概率值分别通过》和 子相似性(likelihood)几何均值的倒数o1,模型混乱 度随着句子相似性的增加而单调递减: 09估计. 3.4文摘算法 perplexity(D)=exp (8) 1)将文档集合中的文本分割为句子,去标题、 ∑N 时间等信息,提取正文中的句子;以文档集中的整句 式中:N为文档集中句子的个数,Ns为句子S中词 作为DA中的文档,去标点和停用词,并将其转换 项的个数,p(S)为句子S的相似性,DA模型中句 为LDA的输人格式; 子的相似性由句子的主题分布和主题的词汇分布计 2)为每个文档集合建立一个LDA模型,使用 算:lgp(S)=∑x1n(w,S)》a9,其中n=(w, Gibs抽样估计句子的主题分布0和主题的词汇分 S)为句子S中词0的出现次数.图1给出了在 布中; DUC2002测试集的59个句子集上建立的LDA模型 3)计算主题重要度,根据提出的2种句子权重 的混乱度随主题数目变化的曲线, 的计算方法ProbGenSum和SentGenSum分别计算句 12x10 子权重 10 4)按照步骤3)得到的权重对句子进行排序, 相同权重的句子按照非停用词在句子中所占的比例 6 从大到小排序; 5)从句子序列中由前至后抽取句子作为文摘 句,若当前句子与前面句子的主题相同,则过滤当前 句子,直到文摘达到长度限制. 40 80120160 200 主题数月 4实验 图1DUC2002句子集上的模型混乱度随主题数目变化 实验中使用通用型文摘测试集DUC2002语料 的趋势 库作为多文档摘要的测试数据.DUC2002语料库包 Fig.1 Variation of perplexity on different number of topics 含59个描述同一个主题或相关主题的文档集合,每 for the LDA model on the DUC2002 data set. 个文档集合平均包含10个文档.每个文档集合都给 可以看出,随着主题数目的增加,所有句子集合 出了最大词数分别为200和400的抽取式专家文 的混乱度都收敛到一个较小的值,实验中当主题数 摘.实验中根据提出的文摘算法分别为每个文档集 目K=170时所有句子集合的平均混乱度达到最小 合建立LDA模型,生成长度至多为200和400个词 值.混乱度越低,说明模型的泛化能力越强,因此对 的抽取式文摘,并使用DUC评测工具ROUGE7]自 于整个DUC2002语料库来说,主题数目K=170时 动评测文摘结果。 模型最优 4.1模型参数设置 对于单个句子集合来说,当其使得模型混乱度 由于DUC2002中各个文档集的词汇数、词汇记 最低的主题数目小于170时,主题集合中会包含一 号数、句子数各不相同,每个文档集的LDA模型参
第2期 杨满,等:主题模型LDA的多文档自动文摘 ·173· 些在任何句子中都不出现的主题,从而影响了文摘 渐变小,从而降低文摘的冗余度.虽然SumBasic算 模型的性能.本文中对各个句子集分别选择使得其 法的思想非常简单,但取得了不错的效果四 模型混乱度最低的主题数目作为各句子集上LDA 4.2.2DoC-LDA算法 模型的主题数目.图2中给出了最终确定的59个句 Arora在文献[12]中将LDA作为文档的表示模 子集各自的主题数目 型,属于同一话题的各文档表示为主题的分布,主题 250 表示为词的分布.文摘算法中根据主题概率大小排 200 A 序,然后从大到小选择主题,再从主题中选择概率大 的句子作为文摘句.实验中为每个话题按照混乱度 估计了最优的主题个数,选取其中性能最好的基于 推论的句子权重计算方式作为比较实例,本文中将 其称为Doc-LDA. 92方313743496 Doc-LDA使用式(I0)计算主题的概率值: 文档集编号 M P()=】 (10) 图2DUC2002数据集上由混乱度确定的LDA模型的 Pg1D,)xP(D,. 主题数目 式中:文档概率P(D)假设为一常数,因此主题的 Fig.2 The optimal number of topics for the LDA model de- 概率只与主题在各文档中所占的权重有关.在确定 termined by perplexity on DUC 2002 data set. 主题后句子的概率值由式(11)计算 4.2基于R0UGE的自动评测 P(S,1)=∑eP(W,1)× 实验中使用ROUGE-1、ROUGE-2、ROUGE-L、 P(aIDa)×P(DB): (11) ROUGE-S4(中间有4个词间段的词对)和ROUGE- 同样地,文档概率P(D)为一常数,主题中句 SU4715个评测标准,分别用带停用词和去停用词2 子的概率与主题的概率和句子中包含的词在主题下 种计算方式对提出的文摘方法进行评测.专家文摘 的概率相关 和模型生成的文摘都使用Porter Stemmer取词干.对 4.2.3KL-LDA算法 模型在DUC2002数据集上生成的长度分别为200 Chang和Chien6为语料库中的文档集和单个 和400的摘要分别进行评测,以考察摘要的长度对 的句子分别使用LDA建模,然后计算句子语言模型 摘要质量的影响.实验中同时给出了用于比较的 和文档集语言模型之间的KL-散度 SumBasic、.Doc-LDA和KL-LDA在DUC2OO2数据集 其中,句子语言模型表示为 上的ROUGE结果, 4.2.1 SumBasic算法 p(,1S)=∑P(aS)×P(o,15). SumBasic算法是由Nenkova和Vanderwende于 文档集语言模型表示为 2005年提出的基于词频的多文档抽取式文摘方 p(,1D)=P(D)×P(, 法).他们认为文档集合中非停用词的相对频率可 使用式(12)的KL-散度计算公式估计句子代表 以较为准确地反映该词是否出现在专家文摘中,在 文档的能力,对句子进行排序,选择KL散度大的句 SumBasic算法中每个句子S都赋予一个反映它所 子作为文摘句 包含的词频的权值: (12) 5eare(S)=∑s1SP(w). .(P1Q)=EP8 (9) 实验中为每个话题和句子集按照混乱度估计了 式中:P,(w)为一元概率观察值,使用最大似然估计 最优的主题个数,按KL-散度大小对句子进行排序, 计算时近似等于该词在语料库中出现次数占总词数 选择KL-散度大的句子作为该文档集的摘要句: 的比例. 4.2.4评测结果与分析 根据式(9)计算句子的分值,并按分值将句子 表1给出了文摘长度为200时在DUC2002语 由高到低添加到文摘中,直到达到限制的文摘字数, 料库上各模型得到的ROUGE值.可以看出,根据 由该方法得到的模型记为Unigram.在SumBasic算 ROUGE的5个评测标准判断的各模型性能的好坏 法中已经选为文摘的句子中单词的概率变为原概率 基本是一致的.基于LDA主题模型的文摘总体上优 的平方:P(w)=P%(w)2,即选中单词的概率逐 于基于词频统计的文摘效果.用LDA分别表示句子