>从计算的角度来看,直接计算主成分向量 (例如求解相关矩阵或协方差矩阵的特征值) 通常要么是计算上不可行,要么是数值上 不稳定。实践中,可以使用特别适合高维 稀疏矩阵的SVD技术来估计PCA向量
➢ 从计算的角度来看,直接计算主成分向量 (例如求解相关矩阵或协方差矩阵的特征值) 通常要么是计算上不可行,要么是数值上 不稳定。实践中,可以使用特别适合高维 稀疏矩阵的SVD技术来估计PCA向量
四、文拦和文本分类 上面的讨论可以看出使用词条向量来表示 文档为文档分类提供了一种自然框架。 有了这一框架对于预先有标签的文栏我们 可以使用有指导分类技术,对于没有标签 的文档我们可以使用无指导学习(聚类)框架。 >典型词条向量的维数都是非常高的,基于 这一事实,高维空间中的准确性和高效性 通常是选择分类器的首要标准
四、文档和文本分类 ➢ 上面的讨论可以看出使用词条向量来表示 文档为文档分类提供了一种自然框架。 ➢ 有了这一框架对于预先有标签的文档我们 可以使用有指导分类技术,对于没有标签 的文档我们可以使用无指导学习(聚类)框架。 ➢ 典型词条向量的维数都是非常高的,基于 这一事实,高维空间中的准确性和高效性 通常是选择分类器的首要标准
>对于文档表示来说,像一阶贝叶斯分类器 这样的分类模型或者是加权线性组合可工 作得很妇 在文档分类这一领域还有很多有趣的问题 可以探讨,例如认为每篇文栏属于多个主 题(类)而不是仅属于某个类是有意义的。因 此在分类时不再限于各个类是相互排斥的 这一通用框架。一种简单的方法是为每 类分别训练 值分类器,此方法仅当 类别总数较少时是可行的
➢ 对于文档表示来说,像一阶贝叶斯分类器 这样的分类模型或者是加权线性组合可工 作得很好。 ➢ 在文档分类这一领域还有很多有趣的问题 可以探讨,例如认为每篇文档属于多个主 题(类)而不是仅属于某个类是有意义的。因 此在分类时不再限于各个类是相互排斥的 这一通用框架。一种简单的方法是为每个 类分别训练一个二值分类器,此方法仅当 类别总数较少时是可行的