>如果我们在新的二维主成分空间来表示文 档,那么每篇文档的系数对应于U矩阵的前 两列两个主成分对应的特征向量,即新的 文档权值) d130.8998-11.4912 d710.805221.9140 a230.3131-10.7801 d811.508028.0101 d318.0007-7.7138 d99.525917.7666 d48.3765-3.5611 d1019.921945.0751 d552.7057-20.6051 d614.211821.8263
➢ 如果我们在新的二维主成分空间来表示文 档,那么每篇文档的系数对应于U矩阵的前 两列(两个主成分对应的特征向量,即新的 文档权值):
>这两列可看作新的伪词条,其作用相当于 原来6个词条的线性组合。 看一下前两个主成分方向可以得到的信息 (新共轭基) V1=(0.74,0.49,0.27,0280.180.19) V2=(-0.28,-0.24,-0.12,0.74,0.37,0.31) 这两个方向是原来6维词条空间中数据最分散 (具有最大方差)的方向。每方向更突出前两 个词条(查询,SQL):实际上这是描述和数据 库有关文档的方向
➢ 这两列可看作新的伪词条,其作用相当于 原来6个词条的线性组合。 ➢ 看一下前两个主成分方向可以得到的信息 (新共轭基): V1=(0.74,0.49,0.27,0.28,0.18,0.19) V2=(-0.28,-0.24,-0.12,0.74,0.37,0.31) 这两个方向是原来6维词条空间中数据最分散 (具有最大方差)的方向。每方向更突出前两 个词条(查询,SQL):实际上这是描述和数据 库有关文档的方向
第二方向突出了后三个词条一回归、似然和 线性,这是描述和回归有关文档的方向 图9-4以图形方式说明了这一点将上面数据 用图表示 8 叵20 只尔州 10 D22 -30 主分量方向1 图9-3主分量方法。图中画出了表9-2中的10篇文档在二维平面上的 投影位置,这个平面是由文档词条矩阵M的前两个主分量决定的
第二方向突出了后三个词条—回归、似然和 线性,这是描述和回归有关文档的方向。 图9-4以图形方式说明了这一点(将上面数据 用图表示)
>当把文档投影到由前两个主成分方向所决 定的平面量,两个不同组的文档分布在两 个不同的方向上。注意文档2几乎落在文档 1上,使其有点模糊。文档5和文档10的词 条向量最大,因此离原最远。 从图可看出,文档间的角度差异显然是相 似性的一个有用指标,因为回归和数据库 文档在平面上是围绕两个不同的角度聚成 簇的。 >主成分方法的应用例子 考虑—个新的文档D1,词条“查询”在该 文档
➢ 当把文档投影到由前两个主成分方向所决 定的平面量,两个不同组的文档分布在两 个不同的方向上。注意文档2几乎落在文档 1上,使其有点模糊。文档5和文档10的词 条向量最大,因此离原最远。 ➢ 从图可看出,文档间的角度差异显然是相 似性的一个有用指标,因为回归和数据库 文档在平面上是围绕两个不同的角度聚成 簇的。 ➢ 主成分方法的应用例子: 考虑一个新的文档D1,词条“查询”在该 文档
>中出现50次,另一个文档D2,包含词条 SQL50次,两且两篇文档都不包含其他 的词条。如果直接使用关键字表示,这两 个文档不会被认为是相似的,因为它们没 有包含相同的词条 然而,如果使用两个主成分词条来表示这 两篇文档,并把它们投影到这个空间中, 那么正如图93所示,二者都被投影到“数 据库”方向,尽管它们都仅包含和数据库 有关的三个词条中的
➢ 中出现50次,另一个文档D2,包含词条 “SQL”50次,两且两篇文档都不包含其他 的词条。如果直接使用关键字表示,这两 个文档不会被认为是相似的,因为它们没 有包含相同的词条。 ➢ 然而,如果使用两个主成分词条来表示这 两篇文档,并把它们投影到这个空间中, 那么正如图9-3所示,二者都被投影到“数 据库”方向,尽管它们都 仅包含和数据库 有关的三个词条中的一个