基于语义关联和信息增益的 TFDF改进算法研究
基于词频反文档频率( TFIDE)的现有文本特 征提取算法及其改进算法未能考虑类别内部词语之间 的语义关联,如果脱离语义,提取出的特征不能很好 地刻画文档的内容。为准确提取特征,在信息熵与信 息增益的基础上,加入词语的语义关联因素,实现融 合语义信息的特征提取,进而提出语义和信息增益相 结合的TFDF改进算法,该算法弥补了统计方法丢失 语义信息的弊端
基于词频反文档频率(TFIDF)的现有文本特 征提取算法及其改进算法未能考虑类别内部词语之间 的语义关联,如果脱离语义,提取出的特征不能很好 地刻画文档的内容。为准确提取特征,在信息熵与信 息增益的基础上,加入词语的语义关联因素,实现融 合语义信息的特征提取,进而提出语义和信息增益相 结合的TFIDF改进算法,该算法弥补了统计方法丢失 语义信息的弊端
文本分类通常有文本的预处理、文本的向量空 间模型表示、文本特征提取和分类器的训练四个步 骤。在研究文本分类的过程中,特征提取是最关键 的环节之一,可以起到降低向量维数、简化计算 去除噪声等作用。故而,特征提取的好坏将直接影 响文本分类的准确率。特征提取的基本思想是构造 个评估函数,对特征集中的每个特征词进行权重 计算,然后对所有的特征词按照其权重值的大小进 行排序,选择预定数目的最佳特征作为最终的特征 子集。在文本分类中常使用的特征选择方法包括文 档频率7 document frequency)互信意 ( mutual information)、信息增益 ( information gain)、X2统计(CH|)、期望 交叉熵( cross entropy 文本证据权(the eight of evidence for text) 优势率(odds at0)和词频反文档频率等
文本分类通常有文本的预处理、文本的向量空 间模型表示、文本特征提取和分类器的训练四个步 骤。在研究文本分类的过程中,特征提取是最关键 的环节之一,可以起到降低向量维数、简化计算、 去除噪声等作用。故而,特征提取的好坏将直接影 响文本分类的准确率。特征提取的基本思想是构造 一个评估函数,对特征集中的每个特征词进行权重 计算,然后对所有的特征词按照其权重值的大小进 行排序,选择预定数目的最佳特征作为最终的特征 子集。在文本分类中常使用的特征选择方法包括文 档频率(document frequency)、互信息 (mutual information)、信息增益 (information gain)、χ2 统计(CHI)、期望 交叉熵(cross entropy)、文本证据权(the weight of evidence for text)、优势率(odds ratio)和词频反文档频率等
对于传统的 TFIDE特征提取算法,目前已有文献对 其的不足进行分析及改进,效果比较显著的是通过引入信 息熵对其进行改进,解决了词语在类别间的分布不均造成 的问题。比如字面不同的词语但可以表示同一个含义,这 样的一组词的语义特征是一样的,不能忽视它们共同出现 对词频的影响。若忽视了语义,就无法准确表达文档的内 容,同时也会影响计算特征词权值的精确度。之前的大多 工作是计算独立的字或词的权重值,以选出特征词,很 涉及词汇语义部分的研究,容易忽视多义词和同义词现象。 本文针对这一问题,先对词语进行语义信息的分析,然后 将有语义关联的归为一组,进而分析信息熵,改进信息增 益的公式,提出一种新的基于语义关联和信息增益的 TEIDE特征选择算法。实验结果表明,改进后的特征选择 算法,在文本分类的查准率和召回率两方面均有不同程度 的提高
对于传统的TFIDF 特征提取算法,目前已有文献对 其的不足进行分析及改进,效果比较显著的是通过引入信 息熵对其进行改进,解决了词语在类别间的分布不均造成 的问题。比如字面不同的词语但可以表示同一个含义,这 样的一组词的语义特征是一样的,不能忽视它们共同出现 对词频的影响。若忽视了语义,就无法准确表达文档的内 容,同时也会影响计算特征词权值的精确度。之前的大多 工作是计算独立的字或词的权重值,以选出特征词,很少 涉及词汇语义部分的研究,容易忽视多义词和同义词现象。 本文针对这一问题,先对词语进行语义信息的分析,然后 将有语义关联的归为一组,进而分析信息熵,改进信息增 益的公式,提出一种新的基于语义关联和信息增益的 TFIDF特征选择算法。实验结果表明,改进后的特征选择 算法,在文本分类的查准率和召回率两方面均有不同程度 的提高
1.1TF|DF特征选择 在文本分类领域中,最常用的是 Salton在1975年 提出的向量空间模型(VSM)。VSM将文本d看做向量 空间中的一个n维向量(t1,wt1),t2,Wt2),t3, w(t Wtn),则t1, 3,…,tn是该文本 的特征词,Wt),i=1,2,3,,n是该文本对应的第i个特 征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词 的权重值便是刻画词语表达文档内容的重要指标。权重值 的计算按其值类型通常分为以下两种: a)布尔型,即将所有训练文档的词语作为全集,当一个 词语t出现在文档中时,其权值设为1,否则设为O b)实数型,将文档的词语通过权重计算公式求出其权重
在文本分类领域中,最常用的是Salton在1975年 提出的向量空间模型(VSM)。 VSM 将文本di看做向量 空间中的一个n 维向量(t1,w(t1 ), t2,w(t2 ), t3, w(t3 ),⋯, tn,w(tn )),则t1, t2, t3,⋯, tn是该文本 的特征词,w(ti ),i=1,2,3,…,n 是该文本对应的第i 个特 征词的权重值。 对文本文档进行分类主要依据文档的内容,而特征词 的权重值便是刻画词语表达文档内容的重要指标。权重值 的计算按其值类型通常分为以下两种 : a)布尔型,即将所有训练文档的词语作为全集,当一个 词语ti 出现在文档中时,其权值设为1,否则设为0; b)实数型,将文档的词语通过权重计算公式求出其权重 值