TFDF是VSM中经典的特征权值函数,权重计算公式为: Weight fidf(t=tf(t)*idf(t) 其中:tf( term frequency)为词语频率,表示该词语 在文档中出现的次数;idf( inverse document frequency 为反文档频率,表示该词语在文档集合中分 布情况的量化。通常计算idf的方法为: Idf(t=log- 其中:N为文档集中的总文档数,n为出现特征项t的 文档数
显然,传统的 TFIDE特征选择方法中,某个词语的权重值与该 词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑 了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中 的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个 词语均匀分布于各个类别中 么对分类的贡献是微乎其微的,不能 秤名普续出的複鉴知定较重值米签的舞荃璇 TFIDF将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。 针对这个问题,文献对传统TFDF方法进行了改进,引入了信息熵与 信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在 处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个 词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文 恣裔囊聋着態对裘盆藿存计聋 本文在基于语义关 改进
显然,传统的TFIDF特征选择方法中,某个词语的权重值与该 词语的频率成正比,与文档频率成反比。但这个方法有着明显的不足, 即忽视了文档在每个类中的分布情况。对于文档频率,一方面只考虑 了包含某个词语文档数绝对量的多少,而没有考虑这些文档在类别中 的分布;另一方面,假如说包含某词条的文档数比较少,但如果这个 词语均匀分布于各个类别中,那么对分类的贡献是微乎其微的,不能 很好地区分类别。相应地,它的权重值应该比较小,但是按照传统 TFIDF 算法得出的权重值却比较大。上述两个明显的缺点主要是因为 TFIDF 将文档集合作为整体考虑,没有考虑词语在类别间的分布情况。 针对这个问题,文献对传统TFIDF 方法进行了改进,引入了信息熵与 信息增益的概念,用以解决词语在类别间的分布不均。但有些文献在 处理方法上未考虑同一个文档中词与词之间的语义关联,只是将每个 词语孤立地进行权重值的计算,这样的处理将词语割裂开,不利于文 本内容表达的完整性,对文本分类有一定的影响。本文在基于语义关 联的前提下计算信息熵,对权重值的计算方法进行改进
1.2基于信息熵的特征选择 熵是德国物理学家克劳修斯于1850年提出的,表 示一种能量在空间中分布的均匀程度,能量分布得越均匀 熵就越大。1948年, Shannon 挹应角手信息处理,提 出了信息熵的概念。信息熵在随机事件发生之前,是结果 不确定性的量度;在随机事件发生之后,它是人们从该事 件中所得到信息的量度(信息量)。 设随机事件X在获得信息y之前结果的不确定性为 H(X),得到信息y之后为H(X|y),那么包含在消 息y中的关于事件X的信息量为 G(X,y)=H(Ⅹ)-H(X|y)(1) 条件熵E(Ⅹy)=H(Ⅹ|y)是观测信息y后信 息空间Ⅹ的不确定程度。信息增益是信息熵的差,表示为 G(X,y)=H(X)H(X y(2)
熵是德国物理学家克劳修斯于1850 年提出的,表 示一种能量在空间中分布的均匀程度,能量分布得越均匀, 熵就越大。1948年,Shannon 把熵应用于信息处理,提 出了信息熵的概念。信息熵在随机事件发生之前,是结果 不确定性的量度;在随机事件发生之后,它是人们从该事 件中所得到信息的量度(信息量)。 设随机事件X 在获得信息y 之前结果的不确定性为 H(X),得到信息y 之后为H(X |y),那么包含在消 息y 中的关于事件X 的信息量为: G(X,y) =H(X) -H(X |y) (1) 条件熵E(X |y) =H(X|y)是观测信息y 后信 息空间X 的不确定程度。信息增益是信息熵的差,表示为: IG(X,y) =H(X) -H(X |y) (2)