信息检索与数据挖掘 2019年4月9日 信息检索与数据挖掘 矩阵分解在信息检索中的应用
信息检索与数据挖掘 2019年4月9日 1 信息检索与数据挖掘 矩阵分解在信息检索中的应用
信息检索与数据挖掘 2019年4月9日 3 矩阵分解在信息检索中的应用 •矩阵分解及隐性语义索引 ·关于词项-文档矩阵 ·线性代数基础 ·矩阵分解与低秩逼近 ·R中的隐性语义索引 ·矩阵分解的计算机实现 •推荐系统 ·推荐系统的兴起 ·推荐系统的基本方法 。示例:UV分解用于音乐推荐
信息检索与数据挖掘 2019年4月9日 3 矩阵分解在信息检索中的应用 • 矩阵分解及隐性语义索引 • 关于词项-文档矩阵 • 线性代数基础 • 矩阵分解与低秩逼近 • IR中的隐性语义索引 • 矩阵分解的计算机实现 • 推荐系统 • 推荐系统的兴起 • 推荐系统的基本方法 • 示例:UV分解用于音乐推荐
信息检索与数据挖掘 2019年4月9日 4 词项-文档矩阵C→CCT C:MXW的词项-文档矩阵 CCT的物理意义? 习题18-4合 6*5 C=01 (18-12) 10 为某个文档集上的词项-文档出现矩阵,计算词项的共现矩阵CC。当C是一个词项-文档出现 掌 屋 喜 矩阵时,CC对角线上的元素是什么? OC6SI AOAg&G CCT方阵,其每行和每列都对应M个词项中的一个。CCT 的第i行、第列的元素是词项i和词项共现的文档数目。 只 C5*6 6 o d d2 d3 da ds de 品 o o O ship 1 0 1 0 0 0 boat 0 1 0 0 0 0 匠 ocean 1 1 0 0 0 0 品 o voyage 1 0 0 1 1 0 trip 0 0 0 1 0 1 哈
信息检索与数据挖掘 2019年4月9日 4 词项-文档矩阵C→CCT • C :M×N 的词项-文档矩阵 • CCT 的物理意义? CCT 方阵,其每行和每列都对应M个词项中的一个。CCT 的第i 行、第j 列的元素是词项i 和词项j 共现的文档数目。 C5*6 CT 6*5
信息检索与数据挖掘 2019年4月9日 5 词项-文档矩阵C→CC 习题18-6 假定C是词项-文档出现矩阵,那么CC的元素的含义是什么? C:MXN的词项-文档矩阵 CTC的物理意义? CT *5 CC是方阵,其每行和每列都对应N个文档中的一 掌 OC69I AOAg&G 个。CCT的矩阵中的第i行、第j列的元素实际上 是第i个文档与第j个文档含有相同词项的数目。 只 民 C5*6 品 d d2 d3 da ds d6 ship 1 0 1 0 0 0 经 boat 0 1 0 0 0 0 吊 ocean 1 1 0 0 0 0 voyage 1 0 0 1 1 0 trip 0 0 0 1 0
信息检索与数据挖掘 2019年4月9日 5 词项-文档矩阵C→CTC • C :M×N 的词项-文档矩阵 • CTC的物理意义? CTC是方阵,其每行和每列都对应N个文档中的一 个。 CCT 的矩阵中的第i 行、第j 列的元素实际上 是第i 个文档与第j 个文档含有相同词项的数目。 C5*6 CT 6*5
信息检索与数据挖掘 2019年4月9日 6 词项-文档计数(f矩阵C→CCT、CTC 词项-文档权重(fidD矩阵C→CCT、CTC 。物理意义? ·A:是词项在不同文档中出现次数的平方和 ·A是词项和词项j共现时f*tf的累计 习题18-7合 021 C= 0 3 (18-14) 上式为一个词项-文档矩阵,其中每个元素都是词项频率,因此词项1在文档2中出现2次,而 在文档3中出现1次。计算Cc,并找出两个词项的最高词频都出现在同一文档时所对应的元素。 CCT各元素体现了词项和词项之间的关联程度 CTC各元素体现了文档和文档之间的关联程度
信息检索与数据挖掘 2019年4月9日 6 词项-文档计数(tf)矩阵C→CCT 、CTC 词项-文档权重(tf-idf)矩阵C→ CCT 、 CTC • 物理意义? • Aii是词项i在不同文档中出现次数的平方和 • Aij是词项i和词项j共现时tfi*tfj的累计 CCT各元素体现了词项和词项之间的关联程度 CTC各元素体现了文档和文档之间的关联程度