当前位置：和泉文库 > 电气与自动化 > 浏览文档

【自然语言处理与理解】基于分类词典的文本相似性度量方法

文件格式：PDF，文件大小：740.8KB，售价：2.73元

文档详细内容（约7页）

第12卷第4期智能系统学报 Vol.12 No.4 2017年8月 CAAI Transactions on Intelligent Systems Aug.2017 D0I:10.11992/is.201608010 基于分类词典的文本相似性度量方法李海林，邹金串2 (1.华侨大学信息管理系，福建泉州362021：2.华侨大学现代应用统计与大数据研究中心，福建厦门361021) 摘要：针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性，提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ICTCLAS对文本分词，运用TF×DF方法提取文本关键词，遍历分类词典获取关键词编码，通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法，通过传统聚类与KNN分类分别对相似性度量方法进行效果验证。数值实验结果表明，新方法在聚类与分类实验中均能取得较好的实验结果，相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。关键词：文本挖掘；语义分析；分类词典；关键词提取；词语编码；相似性度量；聚类；分类中图分类号：TP301文献标志码：A文章编号：1673-4785(2017)04-0556-07 中文引用格式：李海林，邹金串.基于分类词典的文本相似性度量方法[J].智能系统学报，2017,12(4)：556-562. 英文引用格式：LI Hailin,ZOU Jinchuan..Text similarity measure method based on classified dictionary[J].CAAI transactions on intelligent systems,2017,12(4):556-562. Text similarity measure method based on classified dictionary LI Hailin',ZOU Jinchuan2 (1.Department of Information Systems,Huaqiao University,Quanzhou 362021,China;2.Research Center of Applied Statistics and Big Data,Huaqiao University,Xiamen 361021,China) Abstract:Existing text-similarity measurement methods based on the semantic knowledge rules analysis have the limitation of high time complexity.In this paper,we propose a text-similarity measurement method based on the Classified Dictionary.First,we segmented texts using the Chinese Lexical Analysis System.Then,we extracted text keywords using the term frequency-inverse document frequency (tf idf)method and performed keywords coding by traversing the dictionary.By calculating the coding similarity of the text keywords,we can determine the similarity of the original texts.As our two comparison methods,we selected similarity measurement methods based on semantic knowledge rules and statistics.We verified our similarity measurement results using traditional clustering algorithms and the k-nearest neighbors classification method.Our numerical results show that our proposed method can obtain relatively good results in clustering and classification experiments.In addition, compared with other semantic analysis measurement methods,this method has better time efficiency. Keywords:data mining;semantic analysis;classified dictionary;keywords extraction;encoder;similarity measure; clustering;classification 大数据时代，相似性度量方法通常作为数据挖挖掘技术与方法通常用于处理与分析非结构化文掘任务的基础，使得相应的算法和技术能够在复杂本数据，其中相似性度量质量的好坏将很大程度上数据中发现具有潜在价值的信息与知识】，文本影响文本挖掘质量和效率，与文本相关的数据挖掘任务结合，也广泛存在于现实应用中，例如聚类与收稿日期：2016-08-30. 分类、信息检索、机器学习、网络信息认定[到与人工基金项目：国家自然科学基金项目(61300139)：福建省自然科学基金项智能等文本信息处理。目(2015J01581):华侨大学中青年教师科研提升计划项目 (ZQN-PY220):华侨大学研究生科研创新能力培育计划项根据文献[4]中提到的概念层次理论，文本相目(1511307006). 通信作者：邹金串.E-mail:Zou_jinchuan@163.com. 似性度量建立在句子相似性度量之上，句子相似性

第１２卷第４期智能系统学报Ｖｏｌ．１２ №．４２０１７年８月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＡｕｇ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０８０１０基于分类词典的文本相似性度量方法李海林１，邹金串２（１．华侨大学信息管理系，福建泉州３６２０２１；２．华侨大学现代应用统计与大数据研究中心，福建厦门３６１０２１）摘要：针对现有基于语义知识规则分析的文本相似性度量方法存在时间复杂度高的局限性，提出基于分类词典的文本相似性度量方法。利用汉语词法分析系统ＩＣＴＣＬＡＳ对文本分词，运用ＴＦ×ＩＤＦ方法提取文本关键词，遍历分类词典获取关键词编码，通过计算文本关键词编码的近似性来衡量原始文本之间的相似度。选取基于语义知识规则和基于统计两个类别的相似性度量方法作为对比方法，通过传统聚类与ＫＮＮ分类分别对相似性度量方法进行效果验证。数值实验结果表明，新方法在聚类与分类实验中均能取得较好的实验结果，相较于其他基于语义分析的相似性度量方法还具有良好的时间效率。关键词：文本挖掘；语义分析；分类词典；关键词提取；词语编码；相似性度量；聚类；分类中图分类号：ＴＰ３０１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０４－０５５６－０７中文引用格式：李海林，邹金串．基于分类词典的文本相似性度量方法［Ｊ］．智能系统学报，２０１７，１２（４）：５５６－５６２．英文引用格式：ＬＩＨａｉｌｉｎ，ＺＯＵＪｉｎｃｈｕａｎ．Ｔｅｘｔｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｔｈｏｄｂａｓｅｄｏｎｃｌａｓｓｉｆｉｅｄｄｉｃｔｉｏｎａｒｙ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（４）：５５６－５６２．ＴｅｘｔｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｔｈｏｄｂａｓｅｄｏｎｃｌａｓｓｉｆｉｅｄｄｉｃｔｉｏｎａｒｙＬＩＨａｉｌｉｎ１，ＺＯＵＪｉｎｃｈｕａｎ２（１．ＤｅｐａｒｔｍｅｎｔｏｆＩｎｆｏｒｍａｔｉｏｎＳｙｓｔｅｍｓ，ＨｕａｑｉａｏＵｎｉｖｅｒｓｉｔｙ，Ｑｕａｎｚｈｏｕ３６２０２１，Ｃｈｉｎａ；２．ＲｅｓｅａｒｃｈＣｅｎｔｅｒｏｆＡｐｐｌｉｅｄＳｔａｔｉｓｔｉｃｓａｎｄＢｉｇＤａｔａ，ＨｕａｑｉａｏＵｎｉｖｅｒｓｉｔｙ，Ｘｉａｍｅｎ３６１０２１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｅｘｉｓｔｉｎｇｔｅｘｔ⁃ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｓｂａｓｅｄｏｎｔｈｅｓｅｍａｎｔｉｃｋｎｏｗｌｅｄｇｅｒｕｌｅｓａｎａｌｙｓｉｓｈａｖｅｔｈｅｌｉｍｉｔａｔｉｏｎｏｆｈｉｇｈｔｉｍｅｃｏｍｐｌｅｘｉｔｙ．Ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｔｅｘｔ⁃ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅＣｌａｓｓｉｆｉｅｄＤｉｃｔｉｏｎａｒｙ．Ｆｉｒｓｔ，ｗｅｓｅｇｍｅｎｔｅｄｔｅｘｔｓｕｓｉｎｇｔｈｅＣｈｉｎｅｓｅＬｅｘｉｃａｌＡｎａｌｙｓｉｓＳｙｓｔｅｍ．Ｔｈｅｎ，ｗｅｅｘｔｒａｃｔｅｄｔｅｘｔｋｅｙｗｏｒｄｓｕｓｉｎｇｔｈｅｔｅｒｍｆｒｅｑｕｅｎｃｙ⁃ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ（ｔｆ∗ｉｄｆ）ｍｅｔｈｏｄａｎｄｐｅｒｆｏｒｍｅｄｋｅｙｗｏｒｄｓｃｏｄｉｎｇｂｙｔｒａｖｅｒｓｉｎｇｔｈｅｄｉｃｔｉｏｎａｒｙ．Ｂｙｃａｌｃｕｌａｔｉｎｇｔｈｅｃｏｄｉｎｇｓｉｍｉｌａｒｉｔｙｏｆｔｈｅｔｅｘｔｋｅｙｗｏｒｄｓ，ｗｅｃａｎｄｅｔｅｒｍｉｎｅｔｈｅｓｉｍｉｌａｒｉｔｙｏｆｔｈｅｏｒｉｇｉｎａｌｔｅｘｔｓ．Ａｓｏｕｒｔｗｏｃｏｍｐａｒｉｓｏｎｍｅｔｈｏｄｓ，ｗｅｓｅｌｅｃｔｅｄｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｓｂａｓｅｄｏｎｓｅｍａｎｔｉｃｋｎｏｗｌｅｄｇｅｒｕｌｅｓａｎｄｓｔａｔｉｓｔｉｃｓ．Ｗｅｖｅｒｉｆｉｅｄｏｕｒｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｍｅｎｔｒｅｓｕｌｔｓｕｓｉｎｇｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｎｄｔｈｅｋ⁃ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄ．Ｏｕｒｎｕｍｅｒｉｃａｌｒｅｓｕｌｔｓｓｈｏｗｔｈａｔｏｕｒｐｒｏｐｏｓｅｄｍｅｔｈｏｄｃａｎｏｂｔａｉｎｒｅｌａｔｉｖｅｌｙｇｏｏｄｒｅｓｕｌｔｓｉｎｃｌｕｓｔｅｒｉｎｇａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｓ．Ｉｎａｄｄｉｔｉｏｎ，ｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒｓｅｍａｎｔｉｃａｎａｌｙｓｉｓｍｅａｓｕｒｅｍｅｎｔｍｅｔｈｏｄｓ，ｔｈｉｓｍｅｔｈｏｄｈａｓｂｅｔｔｅｒｔｉｍｅｅｆｆｉｃｉｅｎｃｙ．Ｋｅｙｗｏｒｄｓ：ｄａｔａｍｉｎｉｎｇ；ｓｅｍａｎｔｉｃａｎａｌｙｓｉｓ；ｃｌａｓｓｉｆｉｅｄｄｉｃｔｉｏｎａｒｙ；ｋｅｙｗｏｒｄｓｅｘｔｒａｃｔｉｏｎ；ｅｎｃｏｄｅｒ；ｓｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅ；ｃｌｕｓｔｅｒｉｎｇ；ｃｌａｓｓｉｆｉｃａｔｉｏｎ收稿日期：２０１６－０８－３０．基金项目：国家自然科学基金项目（６１３００１３９）；福建省自然科学基金项目（２０１５Ｊ０１５８１）；华侨大学中青年教师科研提升计划项目（ＺＱＮ－ＰＹ２２０）；华侨大学研究生科研创新能力培育计划项目（１５１１３０７００６）．通信作者：邹金串．Ｅ⁃ｍａｉｌ：Ｚｏｕ＿ｊｉｎｃｈｕａｎ＠１６３．ｃｏｍ．大数据时代，相似性度量方法通常作为数据挖掘任务的基础，使得相应的算法和技术能够在复杂数据中发现具有潜在价值的信息与知识［１－２］，文本挖掘技术与方法通常用于处理与分析非结构化文本数据，其中相似性度量质量的好坏将很大程度上影响文本挖掘质量和效率，与文本相关的数据挖掘任务结合，也广泛存在于现实应用中，例如聚类与分类、信息检索、机器学习、网络信息认定［３］与人工智能等文本信息处理。根据文献［４］中提到的概念层次理论，文本相似性度量建立在句子相似性度量之上，句子相似性

第4期李海林，等：基于分类词典的文本相似性度量方法 ·557. 度量进一步以词语的相似性为前提。因此，词语相苏新春教授编写的《现代汉语分类词典》[1)与似性度量结果的好坏直接影响文本相似性度量以《同义词词林》在结构上具有相似性，但《现代汉语及文本聚类、分类等后续文本挖掘任务与工作的分类词典》对词语分类更细，词语间相似度只需通质量。过两个词语编码进行计算比较，相较于ZW_Sim方词语相似度指在不同位置，词语可以互相替换法，不需要对词语相似度进行分层计算，时间复杂使用的程度，文本相似性度量通常分为基于语义知度大大降低。基于距离的语义相似度计算主要包识规则的相似性度量和基于统计的相似性度量。括语义重合度（共同祖先节点数）、语义深度、语义基于语义知识规则的文本相似度计算主要建立在密度、语义距离等4个方面的度量。多级分类体系基于Wordnets-)、MindNet)、FramNet[s劉等语义知使得基于分类词典的相似性度量结果可以直接反识库的基础上。20世纪90年代开始，涌现出大量映两个词语在语义树中的重合度、深度与距离。在基于Wordnet的语义相似度计算算法，主要针对外此基础上，本文提出一种基于现代汉语分类词典的文长文本的语义相似度计算。现有基于语义分文本相似性度量方法(Similarity measure based on 析的中文文本相似性度量方法主要依托于同义词 Cidian,CD_Sim)。CD_Sim方法通过中科院研制出词林o与知网山。刘群等以知网为依托，将词的汉语词法分析系统对待分析文档进行分词等一语相似性度量分为义原相似性度量、概念相似性度系列基本处理，统计词语与文档间的词频矩阵，结量和词语相似性度量3个步骤，并提出了基于知网合T℉×DF算法构建词语文档的向量空间模型20，的词语相似度计算方法(ZW_Sim)。由于该方法的对向量空间模型进行标准化处理、排序等操作实现适用性和有效性，部分学者在此基础上对该相似度对文档的特征提取。通过AP聚类2)]、Kmeans聚计算方法进行改进。林丽等1)在基于知网的词语类[2]、谱聚类[2)3种聚类算法以及KNN分类(2]方相似度计算中引入弱义原的概念，即通过计算除区法对方法计算结果进行检验分析。方法理论简单分能力弱的第一基本义原外的其他义原来计算词易于应用，对降低同义词、同类词导致的误差有一语相似度，以减少计算时间和提高计算精度：王小定作用，在短文本相似度量应用中相较于基于统计林[]在原始基于知网方法的基础上，改进不同类别学的方法可以降低度量误差，相较于基于知识库的义原在词语相似度计算中所占权重的计算方法提方法简单易行。数值实验结果表明，CD_Sim方法高计算精度，通过义项词性判断降低相似性计算复在聚类与分类实验中均能取得较好的实验结果，证杂度：张亮等[)利用知网，从义项的主类义原、主类明了方法的可行性与度量效果。义原框架和义项特性描述三方面综合分析词语相 1 相关理论基础似度，并从语义特征相似度和句法特征相似度两方面来描述词语相似度：田久乐等16]提出基于同义词 1.1现代汉语分类词典词林的词语相似度计算方法(CL_Sim),并通过人工我国现代汉语首部分类词典是《同义词词林》，测试、非人工测试以及与ZW_Sim方法进行比较，证按照词语的概义来对词语进行分类编排。但现在明了方法的可行性；徐庆等)在此基础上对词语相《同义词词林》一定程度上不能很好地反映当前语似度计算公式进行改进，并将该方法应用于中文实言现状。《现代汉语分类词典》在吸收前人成果的体关系抽取，取得了较好的实验结果：郑红艳等[1劉基础上，收录了8.3万条通用性词语，较《同义词词将词林与TF×IDF方法相结合，过滤同义词并对词林》新增常用词2.9万条，按五级语义层编排，包含语权重赋值进行文本特征提取，新的方法具有更好 9个一级类，62个二级类，508个三级类，2057个四的特征提取结果。各位学者将基于知网与词林的级类，12659个五级类。相似性度量方法在参数与时间复杂度方面不断完《现代汉语分类词典》用5层编码代表分类词善，使方法的准确性与时间效率都一定程度上有所典的5层结构，例如“B03Cc04”是“灰浆”和“砂浆” 提高。基于语义知识库的相似性度量方法均需要的编码，示例编码中各层编码意义如表1，表示“灰对语义知识库多次遍历，各位学者虽不同程度提高浆”和“砂浆”均是“具体物”类别下“材料”类别中了方法的时间效率，但时间复杂度高的问题依然 “建筑材料”范畴内“水泥石灰沥青”小类中的“灰存在。浆”类别。若两个词语各级编码均相同，则二者是

度量进一步以词语的相似性为前提。因此，词语相似性度量结果的好坏直接影响文本相似性度量以及文本聚类、分类等后续文本挖掘任务与工作的质量。词语相似度指在不同位置，词语可以互相替换使用的程度，文本相似性度量通常分为基于语义知识规则的相似性度量和基于统计的相似性度量。基于语义知识规则的文本相似度计算主要建立在基于Ｗｏｒｄｎｅｔ［５－６］、ＭｉｎｄＮｅｔ［７］、ＦｒａｍＮｅｔ［８］等语义知识库的基础上。２０世纪９０年代开始，涌现出大量基于Ｗｏｒｄｎｅｔ的语义相似度计算算法，主要针对外文长文本的语义相似度计算［９］。现有基于语义分析的中文文本相似性度量方法主要依托于同义词词林［１０］与知网［１１］。刘群等［１２］以知网为依托，将词语相似性度量分为义原相似性度量、概念相似性度量和词语相似性度量３个步骤，并提出了基于知网的词语相似度计算方法（ＺＷ＿Ｓｉｍ）。由于该方法的适用性和有效性，部分学者在此基础上对该相似度计算方法进行改进。林丽等［１３］在基于知网的词语相似度计算中引入弱义原的概念，即通过计算除区分能力弱的第一基本义原外的其他义原来计算词语相似度，以减少计算时间和提高计算精度；王小林［１４］在原始基于知网方法的基础上，改进不同类别义原在词语相似度计算中所占权重的计算方法提高计算精度，通过义项词性判断降低相似性计算复杂度；张亮等［１５］利用知网，从义项的主类义原、主类义原框架和义项特性描述三方面综合分析词语相似度，并从语义特征相似度和句法特征相似度两方面来描述词语相似度；田久乐等［１６］提出基于同义词词林的词语相似度计算方法（ＣＬ＿Ｓｉｍ），并通过人工测试、非人工测试以及与ＺＷ＿Ｓｉｍ方法进行比较，证明了方法的可行性；徐庆等［１７］在此基础上对词语相似度计算公式进行改进，并将该方法应用于中文实体关系抽取，取得了较好的实验结果；郑红艳等［１８］将词林与ＴＦ×ＩＤＦ方法相结合，过滤同义词并对词语权重赋值进行文本特征提取，新的方法具有更好的特征提取结果。各位学者将基于知网与词林的相似性度量方法在参数与时间复杂度方面不断完善，使方法的准确性与时间效率都一定程度上有所提高。基于语义知识库的相似性度量方法均需要对语义知识库多次遍历，各位学者虽不同程度提高了方法的时间效率，但时间复杂度高的问题依然存在。苏新春教授编写的《现代汉语分类词典》［１９］与《同义词词林》在结构上具有相似性，但《现代汉语分类词典》对词语分类更细，词语间相似度只需通过两个词语编码进行计算比较，相较于ＺＷ＿Ｓｉｍ方法，不需要对词语相似度进行分层计算，时间复杂度大大降低。基于距离的语义相似度计算主要包括语义重合度（共同祖先节点数）、语义深度、语义密度、语义距离等４个方面的度量。多级分类体系使得基于分类词典的相似性度量结果可以直接反映两个词语在语义树中的重合度、深度与距离。在此基础上，本文提出一种基于现代汉语分类词典的文本相似性度量方法（ＳｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｂａｓｅｄｏｎＣｉｄｉａｎ，ＣＤ＿Ｓｉｍ）。ＣＤ＿Ｓｉｍ方法通过中科院研制出的汉语词法分析系统对待分析文档进行分词等一系列基本处理，统计词语与文档间的词频矩阵，结合ＴＦ×ＩＤＦ算法构建词语文档的向量空间模型［２０］，对向量空间模型进行标准化处理、排序等操作实现对文档的特征提取。通过ＡＰ聚类［２１］、Ｋｍｅａｎｓ聚类［２２］、谱聚类［２３］３种聚类算法以及ＫＮＮ分类［２４］方法对方法计算结果进行检验分析。方法理论简单、易于应用，对降低同义词、同类词导致的误差有一定作用，在短文本相似度量应用中相较于基于统计学的方法可以降低度量误差，相较于基于知识库的方法简单易行。数值实验结果表明，ＣＤ＿Ｓｉｍ方法在聚类与分类实验中均能取得较好的实验结果，证明了方法的可行性与度量效果。１相关理论基础１．１现代汉语分类词典我国现代汉语首部分类词典是《同义词词林》，按照词语的概义来对词语进行分类编排。但现在《同义词词林》一定程度上不能很好地反映当前语言现状。《现代汉语分类词典》在吸收前人成果的基础上，收录了８．３万条通用性词语，较《同义词词林》新增常用词２．９万条，按五级语义层编排，包含９个一级类，６２个二级类，５０８个三级类，２０５７个四级类，１２６５９个五级类。《现代汉语分类词典》用５层编码代表分类词典的５层结构，例如“Ｂ０３Ｃｃ０４”是“灰浆”和“砂浆” 的编码，示例编码中各层编码意义如表１，表示“灰浆”和“砂浆”均是“具体物” 类别下“材料” 类别中 “建筑材料” 范畴内“水泥石灰沥青” 小类中的“灰浆”类别。若两个词语各级编码均相同，则二者是第４期李海林，等：基于分类词典的文本相似性度量方法 ·５５７·

·558. 智能系统学报第12卷同义词，相似度为1。 based on Cidian,CD_Sim)。方法侧重于词语相似度表1分类词典编码方式示例量方法的改进，最终应用于文本相似度量，且度量 Table 1 Example of coding method of classified dictionary 方法较基于统计学的方法可以一定程度降低同义编码位符号举例类别名级别词、同类词导致的误差，故方法效果通过文本相似 B 具体物第一级度量结果进行对比衡量。方法以《现代汉语分类词材料典》作为语义知识库，以基于TF×IDF方法的向量空 2 3 第二级间模型作为文本关键词提取依据，文本相似性度量建筑材料第三级过程包括词语编码获取、词语相似度计算和文本相 4 水泥石灰沥青第四级似度计算3个步骤。 5 4 灰浆第五级 2.1词语相似度计算 1.2 向量空间模型基于语义知识库的词语相似度通常通过计算向量空间模型是当前使用较多的文本表示方义原相似度(ZW_Sim方法)或者词语编码相似度法，向量空间矩阵为待分析文本样本词语-文档权 (CL_Sim方法)来计算。CD_Sim方法通过遍历分重矩阵。假设待分析样本D中有n个文档d,(G=1, 类词典，在分类词典中搜索关键词，用该关键词在 2,…,n),用m个词语t,(i=1,2,…,m)在文档中出分类词典中对应的编码替换关键词进行关键词相现的频数组成的向量对一篇文档进行向量表示，根似度计算。样本D中各文档以关键词编码集的形据词语在该文档中出现的概率及在整个样本中出式表示。分类词典中每一个大类均可以看做一棵语义现的概率对该特征词的重要性赋值权重，则样本树，同一个节点下的叶子节点为同义词，且同义词 D表示为编码相同。通常词语相似性通过其在语义树中的 1011 1012 位置进行度量计算，包括语义密度、语义深度、语义 1022 D'= 1021 心 (1) 重合度、语义距离四方面衡量。分类词典对所有词语均采用5级分类，即所有词语语义深度相同，语义 102 重合度与语义距离可通过公式计算互换（见式式中：心，表示第i个词语在第j篇文档中重要程度的 (8)),故可仅取其中一种衡量方式进行计算（涉及权值。时间复杂度，语义密度暂不考虑)。词语权重的计算方法有多种，经典权重计算方定义关键词A的编码为“a1a,aaa”,关键法如TF×IDF算法：词B的编码为“b,b2b3b,bs”,两关键词语义重合度计 0g=TFg×IDF (2) 算公式：式中：TF,指特征词t,在文档d,中出现的次数Pg占 k,=A☒B= a,⑧6 (5) =1 文档d中总词数p:的比重： i=1时， TEy =Pa (3) 1,a:=b: Pi a:☒b:= (6) 0,a:≠b: DF,为逆文档频率，计算公式为 i>1时， IDF,=log(N) (4) 1,，a:=b:anda:-1☒b:-1=1 a:☒b:= (7) 式中：N为样本中文档总数，n:为样本中出现过特征 0, a:≠b: 词t的文档数。任意两个编码（假设两编码前三位相同，后两位不同)的语义重合度与语义距离在编码中可表示 2文本相似度计算为式(8)形式：针对目前基于语义知识规则的文本相似性度 a2 as 量方法存在计算过程中多次遍历语义知识库导致 0 0 0 ↓ (8) 方法时间复杂度高的局限性，提出了基于现代汉语 b: 分类词典的文本相似性度量方法(Similarity measure

同义词，相似度为１。表１分类词典编码方式示例Ｔａｂｌｅ１Ｅｘａｍｐｌｅｏｆｃｏｄｉｎｇｍｅｔｈｏｄｏｆｃｌａｓｓｉｆｉｅｄｄｉｃｔｉｏｎａｒｙ编码位符号举例类别名级别１Ｂ具体物第一级２３材料第二级３Ｃ建筑材料第三级４ｃ水泥石灰沥青第四级５４灰浆第五级１．２向量空间模型向量空间模型是当前使用较多的文本表示方法，向量空间矩阵为待分析文本样本词语－文档权重矩阵。假设待分析样本Ｄ中有ｎ个文档ｄｊ（ｊ＝１，２，…，ｎ），用ｍ个词语ｔｉ（ｉ＝１，２，…，ｍ）在文档中出现的频数组成的向量对一篇文档进行向量表示，根据词语在该文档中出现的概率及在整个样本中出现的概率对该特征词的重要性赋值权重ｗｉｊ，则样本Ｄ表示为Ｄ′ ＝ｗ１１ｗ１２ … ｗ１ｊｗ２１ｗ２２ … ｗ２ｊ ︙ ︙ ︙ ｗｉ１ｗｉ２ … ｗｉｊ é ë ê ê ê ê êê ù û ú ú ú ú úú （１）式中：ｗｉｊ表示第ｉ个词语在第ｊ篇文档中重要程度的权值。词语权重的计算方法有多种，经典权重计算方法如ＴＦ×ＩＤＦ算法：ｗｉｊ＝ＴＦｉｊ × ＩＤＦｉ（２）式中：ＴＦｉｊ指特征词ｔｉ在文档ｄｊ中出现的次数ｐｉｊ占文档ｄｊ中总词数ｐｊ的比重：ＴＦｉｊ＝ｐｉｊｐｊ（３）ＩＤＦｉ为逆文档频率，计算公式为ＩＤＦｉ＝ｌｏｇ（Ｎｎｉ）（４）式中：Ｎ为样本中文档总数，ｎｉ为样本中出现过特征词ｔｉ的文档数。２文本相似度计算针对目前基于语义知识规则的文本相似性度量方法存在计算过程中多次遍历语义知识库导致方法时间复杂度高的局限性，提出了基于现代汉语分类词典的文本相似性度量方法（ＳｉｍｉｌａｒｉｔｙｍｅａｓｕｒｅｂａｓｅｄｏｎＣｉｄｉａｎ，ＣＤ＿Ｓｉｍ）。方法侧重于词语相似度量方法的改进，最终应用于文本相似度量，且度量方法较基于统计学的方法可以一定程度降低同义词、同类词导致的误差，故方法效果通过文本相似度量结果进行对比衡量。方法以《现代汉语分类词典》作为语义知识库，以基于ＴＦ×ＩＤＦ方法的向量空间模型作为文本关键词提取依据，文本相似性度量过程包括词语编码获取、词语相似度计算和文本相似度计算３个步骤。２．１词语相似度计算基于语义知识库的词语相似度通常通过计算义原相似度（ＺＷ＿Ｓｉｍ方法）或者词语编码相似度（ＣＬ＿Ｓｉｍ方法）来计算。ＣＤ＿Ｓｉｍ方法通过遍历分类词典，在分类词典中搜索关键词，用该关键词在分类词典中对应的编码替换关键词进行关键词相似度计算。样本Ｄ中各文档以关键词编码集的形式表示。分类词典中每一个大类均可以看做一棵语义树，同一个节点下的叶子节点为同义词，且同义词编码相同。通常词语相似性通过其在语义树中的位置进行度量计算，包括语义密度、语义深度、语义重合度、语义距离四方面衡量。分类词典对所有词语均采用５级分类，即所有词语语义深度相同，语义重合度与语义距离可通过公式计算互换（见式（８）），故可仅取其中一种衡量方式进行计算（涉及时间复杂度，语义密度暂不考虑）。定义关键词Ａ的编码为“ ａ１ａ２ａ３ａ４ａ５ ”，关键词Ｂ的编码为“ｂ１ｂ２ｂ３ｂ４ｂ５ ”，两关键词语义重合度计算公式：ｋ１＝Ａ 􀱋 Ｂ＝ ∑ ５ｉ＝１ａｉ 􀱋 ｂｉ（５）ｉ＝１时，ａｉ 􀱋 ｂｉ＝１，ａｉ＝ｂｉ０，ａｉ ≠ ｂｉ { （６）ｉ＞１时，ａｉ 􀱋 ｂｉ＝１，ａｉ＝ｂｉａｎｄａｉ－１ 􀱋 ｂｉ－１＝１０，ａｉ ≠ ｂｉ { （７）任意两个编码（假设两编码前三位相同，后两位不同）的语义重合度与语义距离在编码中可表示为式（８）形式：ａ１⇔ ｂ１ａ２⇔ ｂ２ａ３⇔ ｂ３ａ４ ↓ ｂ４ａ５ｂ５ ← → （８） ·５５８· 智能系统学报第１２卷

第4期李海林，等：基于分类词典的文本相似性度量方法 ·559 则根据a,台b1,a2台b2,a3台b3前三对编码位相同，中的第g个关键词的相似度。根据两文本关键词相语义重合度（即相同父节点数）记为3，语义距离（即似度矩阵可求文本相似度为从末位编码开始向上遍历编码位，经过第一共同编码位再到另一编码末位编码所经过的不同编码位 SM(d,42)= p=1 的路径数)表示为a,→a4→b4→b5,记为3。根据语 x+y 义重合度和语义距离的概念与计算规则，通过换 (12) 算，得到任意两编码语义距离公式为关键词与比较文本关键词相似度取该关键词 (9-2×k1,k1<5 与比较文本所有关键词相似度最大值，即对关键词 k2= (9) (0,k1=5 相似度矩阵每行每列均取最大值，平均值即为两文根据编码语义重合度和语义距离的计算公式，本相似度。列出3个编码，分别求两两编码的语义重合度和语基于现代汉语分类词典的文本相似性度量算义距离，验证计算公式的正确性与可行性。二者换法Z=CD_Sim(D): 算示例如表2。输入待分析样本D: 表2语义重合度与语义距离换算示例输出样本D中所有文本间相似度集合Z。 Table 2 Example of conversion between coincidence and 1)对样本D中所有文档进行分词、过滤停用词 distance of semantic 处理； 2)对处理后的结果构建词语-文档频数矩阵，重合度/距离编码深度并结合TF×DF方法构建样本的向量空间模型D'; B03Cc04 B03Dc03 C02Cb01 3)根据向量空间模型D'对每篇文档按照一定 B03Cc04 5 5/0 2/5 0/9 的规则进行关键词提取； B03Dc03 2/5 5/0 0/9 4)for i=1:size(D,1)-1 C02Cbo1 5 0/9 0/9 5/0 ①forj=i+1:size(D,1) 考虑到语义重合度与语义距离可互相换算， a)根据式(10)计算文档i和文档j中所有关键 CD_Sim方法中词语相似度均采用语义重合度进行词相似度，并按式(11)将计算结果存入相似度矩计算，将语义重合度标准化公式：阵Sim; b)将相似度矩阵Sim按式(12)进行计算，得到 Sim(A,B)= (10) 文档i和文档j的相似度SM(d:,d;): 将关键词转化为编码可以更加直观表示关键 ②End 词在词典中所属类别，在关键词相似度计算过程中 5)End 直接通过编码计算，不需要多次访问语义知识库， 6)得出样本D中所有文本间相似度集合Z。提高了计算的时间效率。根据方法介绍，CD_Sim方法与CL_Sim方法时 2.2相似度计算间复杂度均为O(n2),ZW_Sim方法时间复杂度为文本相似度计算建立在词语相似性度量之上， 03(n2)。每个关键词与对比文档中关键词的距离取该关键 3仿真实验词与对比文档中所有关键词相似度的最大值。设为检验CD_Sim方法的结果在应用中的准确性文档d1(1,2,…,lp)(p=1,2,…,x)有x个关键词，与时间效率，从搜狗分类语料库2]中随机选择5类文档d2(1,42,…,l)(9=1,2,…,y)有y个关键词，数据作为实验样本，采用中科院分词软件对样本进计算d,与d,中所有关键词的相似度矩阵行预处理，通过T℉×DF方法对处理结果进行关键 S11 512.S1g 词提取，选择基于语义知识规则和基于统计两类词 S22 Sim= S21 52g (11) 语相似性度量方法作为对比方法，用聚类与分类两种方法对相似性度量结果进行检验。文中文本相似性度量方法仿真实验对每篇文档取词语权值排式中：s表示文档d,中的第p个关键词与文档d 序前15位词语作为文本关键词进行数值实验

则根据ａ１⇔ｂ１，ａ２⇔ｂ２，ａ３⇔ｂ３前三对编码位相同，语义重合度（即相同父节点数）记为３，语义距离（即从末位编码开始向上遍历编码位，经过第一共同编码位再到另一编码末位编码所经过的不同编码位的路径数）表示为ａ５→ａ４→ｂ４→ｂ５，记为３。根据语义重合度和语义距离的概念与计算规则，通过换算，得到任意两编码语义距离公式为ｋ２＝９－２ × ｋ１，ｋ１＜５０，ｋ１＝５ { （９）根据编码语义重合度和语义距离的计算公式，列出３个编码，分别求两两编码的语义重合度和语义距离，验证计算公式的正确性与可行性。二者换算示例如表２。表２语义重合度与语义距离换算示例Ｔａｂｌｅ２Ｅｘａｍｐｌｅｏｆｃｏｎｖｅｒｓｉｏｎｂｅｔｗｅｅｎｃｏｉｎｃｉｄｅｎｃｅａｎｄｄｉｓｔａｎｃｅｏｆｓｅｍａｎｔｉｃ编码深度重合度／距离Ｂ０３Ｃｃ０４Ｂ０３Ｄｃ０３Ｃ０２Ｃｂ０１Ｂ０３Ｃｃ０４５５／０２／５０／９Ｂ０３Ｄｃ０３５２／５５／００／９Ｃ０２Ｃｂ０１５０／９０／９５／０考虑到语义重合度与语义距离可互相换算，ＣＤ＿Ｓｉｍ方法中词语相似度均采用语义重合度进行计算，将语义重合度标准化公式：Ｓｉｍ（Ａ，Ｂ）＝ｋ１５（１０）将关键词转化为编码可以更加直观表示关键词在词典中所属类别，在关键词相似度计算过程中直接通过编码计算，不需要多次访问语义知识库，提高了计算的时间效率。２．２相似度计算文本相似度计算建立在词语相似性度量之上，每个关键词与对比文档中关键词的距离取该关键词与对比文档中所有关键词相似度的最大值。设文档ｄ１（ｔ１，ｔ２，…，ｔｐ）（ｐ＝１，２，…，ｘ）有ｘ个关键词，文档ｄ２（ｔ１，ｔ２，…，ｔｑ）（ｑ＝１，２，…，ｙ）有ｙ个关键词，计算ｄ１与ｄ２中所有关键词的相似度矩阵Ｓｉｍ＝ｓ１１ｓ１２ … ｓ１ｑｓ２１ｓ２２ … ｓ２ｑ ︙ ︙ ︙ ｓｐ１ｓｐ２ … ｓｐｑ é ë ê ê ê ê êê ù û ú ú ú ú úú （１１）式中：ｓｐｑ表示文档ｄ１中的第ｐ个关键词与文档ｄ２中的第ｑ个关键词的相似度。根据两文本关键词相似度矩阵可求文本相似度为ＳＩＭ（ｄ１，ｄ２）＝ ∑ ｘｐ＝１ｍａｘ（ｓｐ１，ｓｐ２，…，ｓｐｙ）＋∑ ｙｑ＝１ｍａｘ（ｓ１ｑ，ｓ２ｑ，…，ｓｘｑ）ｘ＋ｙ（１２）关键词与比较文本关键词相似度取该关键词与比较文本所有关键词相似度最大值，即对关键词相似度矩阵每行每列均取最大值，平均值即为两文本相似度。基于现代汉语分类词典的文本相似性度量算法Ｚ＝ＣＤ＿Ｓｉｍ（Ｄ）：输入待分析样本Ｄ；输出样本Ｄ中所有文本间相似度集合Ｚ。１）对样本Ｄ中所有文档进行分词、过滤停用词处理；２）对处理后的结果构建词语－文档频数矩阵，并结合ＴＦ×ＩＤＦ方法构建样本的向量空间模型Ｄ′；３）根据向量空间模型Ｄ′对每篇文档按照一定的规则进行关键词提取；４）ｆｏｒｉ＝１：ｓｉｚｅ（Ｄ，１）－１ ①ｆｏｒｊ＝ｉ＋１：ｓｉｚｅ（Ｄ，１）ａ）根据式（１０）计算文档ｉ和文档ｊ中所有关键词相似度，并按式（１１）将计算结果存入相似度矩阵Ｓｉｍ；ｂ）将相似度矩阵Ｓｉｍ按式（１２）进行计算，得到文档ｉ和文档ｊ的相似度ＳＩＭ（ｄｉ，ｄｊ）； ②Ｅｎｄ５）Ｅｎｄ６）得出样本Ｄ中所有文本间相似度集合Ｚ。根据方法介绍，ＣＤ＿Ｓｉｍ方法与ＣＬ＿Ｓｉｍ方法时间复杂度均为Ｏ（ｎ２），ＺＷ＿Ｓｉｍ方法时间复杂度为Ｏ３（ｎ２）。３仿真实验为检验ＣＤ＿Ｓｉｍ方法的结果在应用中的准确性与时间效率，从搜狗分类语料库［２５］中随机选择５类数据作为实验样本，采用中科院分词软件对样本进行预处理，通过ＴＦ×ＩＤＦ方法对处理结果进行关键词提取，选择基于语义知识规则和基于统计两类词语相似性度量方法作为对比方法，用聚类与分类两种方法对相似性度量结果进行检验。文中文本相似性度量方法仿真实验对每篇文档取词语权值排序前１５位词语作为文本关键词进行数值实验。第４期李海林，等：基于分类词典的文本相似性度量方法 ·５５９·

·560 智能系统学报第12卷 3.1实验数据与实验设计算法，K值取[10,20，…，100]这10组数据值进行实实验语料数据选自搜狗实验室提供的搜狗分验，每种聚类检验方法中均取熵值最小且纯净度最类语料库，该语料库包含了环境、计算机、交通、教高的实验结果作为基于LSA的相似性度量算法的育、经济、军事、体育、医药、艺术和政治10个类别文实验结果。本文档。根据聚类实验结果分析，对4种相似性度量方数值实验选取了环境、交通、政治、教育、体育5 法进行比较。AP聚类中，CD_Sim方法聚类结果最个类别，每个类别随机选取20个文本文档共100个好，但数值实验样本仅包含5类文档，CD_Sim方法文本文档进行实验。实验中通过TF_DF特征选择聚类数目达18种，存在一定的不合理性。在谱聚类方法在100个文本中分别选择15个关键词进行相算法中，CD_Sim方法聚类检验结果明显优于其他似性度量，其中，由于基于统计方法的特殊性，该类相似性度量方法，在4种相似性度量方法中，嫡值最方法采用整个词语-文档权重矩阵进行相似度小，纯净度最高。Kmeans聚类算法中，CD_Sim方法计算。实验结果纯净度较低、嫡值较大，但结果仍优于其实验选择基于LSA的文本相似性度量方法、基他相似性度量方法。于词林的文本相似性度量方法和基于知网的语义根据实验结果，对3种基于语义知识规则的相相似性度量方法作为对比方法，分别采用AP聚类、似性度量方法聚类实验结果进行比较分析，CD_Sim Kmeans聚类、谱聚类以及KNN分类对相似性度量方法实验结果优于CL_Sim方法和ZW_Sim方法，聚结果进行检验。类熵值最小、纯净度最高。 3.2聚类分析 3.3分类实验相似性度量结果的好坏直接影响文本聚类算分类检验采用KNN算法进行分析，算法从每个法的精度，在已知文档类别的样本中，聚类精度可类别样本中均选取一半作为已知类别样本，剩下一以反过来检验文本相似性度量结果的好坏。比较半作为实验集，检验结果以分类准确率进行度量，经典的基于距离矩阵的聚类算法有Kmeans,AP聚分类算法K值分别取[1,2，…，10]，得出10组不同类及后来发展起来的谱聚类算法等。Kmeans与谱 K值下的KNN分类结果并取平均值mean。采用不聚类算法均是给定聚类数目的聚类算法，时间复杂的相似性度量方法作为文本之间近似性度量方法，度低，聚类准确度高：在聚类数目未知的情况下，上结合KNN方法进行数值实验，其实验结果如表4 述两种方法聚类结果会产生较大的偏差。AP聚类所示。没有事先给定聚类数目，根据数据自身的特性进行表4基于分类检验方法的数据实验结果聚类，聚类结果与聚类对象特征更加吻合。将相似 Table 4 Experiment results based on classified method 性度量方法实验结果做聚类分析，数值实验结果如分类表3。方法 -mean 12345678910 表3基于聚类检验方法的数据实验结果 CL_Sim0.600.580.640.640.720.680.700.620.700.780.67 Table 3 Experiment results based on clustering method ZW Sim0.220.240.240.260.240.260.260.240.260.28025 Spectral Kmeans AP聚类 CD Sim0.800.840.840.900.900.840.880.900.860.840.86 方法聚类聚类 LSA Sim0.820.840.840.840.840.840.860.760.780.800.82 NUM 嫡值纯净度熵值纯净度嫡值纯净度数值实验结果表明，4种相似性度量方法中」 CL Sim 14 0.960.741.76 0.47 1.84 0.41 CD_Sim方法分类实验结果最好，分类准确率最高， ZW Sim 9 2.130.28 1.84 0.41 2.22 0.24 LSA Sim方法实验结果次之，优于其他方法分类实 CD Sim 18 0.330.900.900.821.26 0.66 验结果。3种基于语义知识规则的相似性度量方法 LSA Sim180.600.851.600.501.680.51 分类检验结果进行比较，CD_Sim方法分类实验结数值实验中，聚类结果通过熵值和纯净度来度果优于CL_Sim方法和ZW_Sim方法，分类准确度量。聚类结果嫡值越低、纯净度越高，则聚类结果最高。越好。NUM记录了将各相似性度量方法结果进行 3.4时间复杂度分析 AP聚类所得聚类类别数。基于LSA的相似性度量实验中方法的时间复杂度是除准确性外方法

３．１实验数据与实验设计实验语料数据选自搜狗实验室提供的搜狗分类语料库，该语料库包含了环境、计算机、交通、教育、经济、军事、体育、医药、艺术和政治１０个类别文本文档。数值实验选取了环境、交通、政治、教育、体育５个类别，每个类别随机选取２０个文本文档共１００个文本文档进行实验。实验中通过ＴＦ＿ＩＤＦ特征选择方法在１００个文本中分别选择１５个关键词进行相似性度量，其中，由于基于统计方法的特殊性，该类方法采用整个词语－文档权重矩阵进行相似度计算。实验选择基于ＬＳＡ的文本相似性度量方法、基于词林的文本相似性度量方法和基于知网的语义相似性度量方法作为对比方法，分别采用ＡＰ聚类、Ｋｍｅａｎｓ聚类、谱聚类以及ＫＮＮ分类对相似性度量结果进行检验。３．２聚类分析相似性度量结果的好坏直接影响文本聚类算法的精度，在已知文档类别的样本中，聚类精度可以反过来检验文本相似性度量结果的好坏。比较经典的基于距离矩阵的聚类算法有Ｋｍｅａｎｓ，ＡＰ聚类及后来发展起来的谱聚类算法等。Ｋｍｅａｎｓ与谱聚类算法均是给定聚类数目的聚类算法，时间复杂度低，聚类准确度高；在聚类数目未知的情况下，上述两种方法聚类结果会产生较大的偏差。ＡＰ聚类没有事先给定聚类数目，根据数据自身的特性进行聚类，聚类结果与聚类对象特征更加吻合。将相似性度量方法实验结果做聚类分析，数值实验结果如表３。表３基于聚类检验方法的数据实验结果Ｔａｂｌｅ３Ｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｂａｓｅｄｏｎｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄ方法ＡＰ聚类Ｓｐｅｃｔｒａｌ聚类Ｋｍｅａｎｓ聚类ＮＵＭ熵值纯净度熵值纯净度熵值纯净度ＣＬ＿Ｓｉｍ１４０．９６０．７４１．７６０．４７１．８４０．４１ＺＷ＿Ｓｉｍ９２．１３０．２８１．８４０．４１２．２２０．２４ＣＤ＿Ｓｉｍ１８０．３３０．９００．９００．８２１．２６０．６６ＬＳＡ＿Ｓｉｍ１８０．６００．８５１．６００．５０１．６８０．５１数值实验中，聚类结果通过熵值和纯净度来度量。聚类结果熵值越低、纯净度越高，则聚类结果越好。ＮＵＭ记录了将各相似性度量方法结果进行ＡＰ聚类所得聚类类别数。基于ＬＳＡ的相似性度量算法，Ｋ值取［１０，２０，…，１００］这１０组数据值进行实验，每种聚类检验方法中均取熵值最小且纯净度最高的实验结果作为基于ＬＳＡ的相似性度量算法的实验结果。根据聚类实验结果分析，对４种相似性度量方法进行比较。ＡＰ聚类中，ＣＤ＿Ｓｉｍ方法聚类结果最好，但数值实验样本仅包含５类文档，ＣＤ＿Ｓｉｍ方法聚类数目达１８种，存在一定的不合理性。在谱聚类算法中，ＣＤ＿Ｓｉｍ方法聚类检验结果明显优于其他相似性度量方法，在４种相似性度量方法中，熵值最小，纯净度最高。Ｋｍｅａｎｓ聚类算法中，ＣＤ＿Ｓｉｍ方法实验结果纯净度较低、熵值较大，但结果仍优于其他相似性度量方法。根据实验结果，对３种基于语义知识规则的相似性度量方法聚类实验结果进行比较分析，ＣＤ＿Ｓｉｍ方法实验结果优于ＣＬ＿Ｓｉｍ方法和ＺＷ＿Ｓｉｍ方法，聚类熵值最小、纯净度最高。３．３分类实验分类检验采用ＫＮＮ算法进行分析，算法从每个类别样本中均选取一半作为已知类别样本，剩下一半作为实验集，检验结果以分类准确率进行度量，分类算法Ｋ值分别取［１，２，…，１０］，得出１０组不同Ｋ值下的ＫＮＮ分类结果并取平均值ｍｅａｎ。采用不的相似性度量方法作为文本之间近似性度量方法，结合ＫＮＮ方法进行数值实验，其实验结果如表４所示。表４基于分类检验方法的数据实验结果Ｔａｂｌｅ４Ｅｘｐｅｒｉｍｅｎｔｒｅｓｕｌｔｓｂａｓｅｄｏｎｃｌａｓｓｉｆｉｅｄｍｅｔｈｏｄ方法分类１２３４５６７８９１０ｍｅａｎＣＬ＿Ｓｉｍ０．６００．５８０．６４０．６４０．７２０．６８０．７００．６２０．７００．７８０．６７ＺＷ＿Ｓｉｍ０．２２０．２４０．２４０．２６０．２４０．２６０．２６０．２４０．２６０．２８０．２５ＣＤ＿Ｓｉｍ０．８００．８４０．８４０．９００．９００．８４０．８８０．９００．８６０．８４０．８６ＬＳＡ＿Ｓｉｍ０．８２０．８４０．８４０．８４０．８４０．８４０．８６０．７６０．７８０．８００．８２数值实验结果表明，４种相似性度量方法中，ＣＤ＿Ｓｉｍ方法分类实验结果最好，分类准确率最高，ＬＳＡ＿Ｓｉｍ方法实验结果次之，优于其他方法分类实验结果。３种基于语义知识规则的相似性度量方法分类检验结果进行比较，ＣＤ＿Ｓｉｍ方法分类实验结果优于ＣＬ＿Ｓｉｍ方法和ＺＷ＿Ｓｉｍ方法，分类准确度最高。３．４时间复杂度分析实验中方法的时间复杂度是除准确性外方法 ·５６０· 智能系统学报第１２卷

点击进入文档下载页（PDF格式）

共7页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录