当前位置：和泉文库 > 信息系统 > 浏览文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）矩阵分解在信息检索中的应用

• 矩阵分解及隐性语义索引 • 关于词项-文档矩阵 • 线性代数基础 • 矩阵分解与低秩逼近 • IR中的隐性语义索引 • 矩阵分解的计算机实现 • 推荐系统 • 推荐系统的兴起 • 推荐系统的基本方法 • 示例：UV分解用于音乐推荐

文件格式：PDF，文件大小：2.73MB，售价：17.42元

文档详细内容（约72页）

信息检索与数据挖掘 2019年4月9日 20 低秩逼近给定M×N的矩阵C及正整数k,我们想寻找一个秩不高于k的M×N的矩阵Ck,使得两个矩阵的差 X=C-Ck的F范数(Frobenius Norm,弗罗宾尼其范数)最小，即下式最小： M N IXI ·因此，X的F范数度量了Ck和C之间的差异程度。我们的目标是找到一个矩阵C,会使得这种差异极小化，同时又要限制Ck的秩不高于k。如果r是C 的秩，那么很显然C,=C,此时矩阵差值的F范数为 0。当k比r小得多时，我们称Ck为低秩逼近(low- rank approximation)矩阵

信息检索与数据挖掘 2019年4月9日 20 低秩逼近 • 给定M × N 的矩阵C 及正整数k，我们想寻找一个秩不高于k 的M × N 的矩阵Ck，使得两个矩阵的差 X = C − Ck 的F范数（Frobenius Norm，弗罗宾尼其范数）最小，即下式最小： • 因此，X 的F范数度量了Ck 和C 之间的差异程度。我们的目标是找到一个矩阵Ck，会使得这种差异极小化，同时又要限制Ck 的秩不高于k。如果r 是C 的秩，那么很显然Cr =C，此时矩阵差值的F范数为 0。当k 比r 小得多时，我们称Ck 为低秩逼近（lowrank approximation）矩阵

信息检索与数据挖掘 2019年4月9日 21 SVD用于矩阵的低秩逼近 ·进行如下三步操作： (1)给定C,构造SVD分解，因此C=UU∑VT; ·(2)把∑对角线上r-k个最小奇异值置为0，得到Σ： (3)计算Ck=U∑r作为C的逼近。 ·由于∑最多包含k个非零元素，所以C的秩不高于k。将这些小特征值替换成0将不会对最后的乘积有实质性影响，也就是说该乘积接近C。 Eckart及Young给出的定理将会告诉我们，上述过程产生了一个秩为k的矩阵，它的F-范数误差最小

信息检索与数据挖掘 2019年4月9日 21 SVD 用于矩阵的低秩逼近 • 进行如下三步操作： • (1) 给定C，构造SVD 分解，因此C = UΣVT； • (2) 把Σ对角线上r-k 个最小奇异值置为0，得到Σk； • (3) 计算Ck = UΣkVT 作为C 的逼近。 • 由于 Σk 最多包含k 个非零元素，所以Ck 的秩不高于k。将这些小特征值替换成0 将不会对最后的乘积有实质性影响，也就是说该乘积接近C。 Eckart 及Young 给出的定理将会告诉我们，上述过程产生了一个秩为k 的矩阵，它的F−范数误差最小

信息检索与数据挖掘 2019年4月9日 22 SVD用于图像压缩 20 15 10 10 15 20 A 24*24 image Rank 3 approximation Rank 5 approximation 01 0 A=[u1ukuk+1um Ok 0 0 http://www.math.umn.edu/-lerman/math5467/svd.pdf

信息检索与数据挖掘 2019年4月9日 22 SVD用于图像压缩 A 24*24 image Rank 3 approximation Rank 5 approximation http://www.math.umn.edu/~lerman/math5467/svd.pdf

信息检索与数据挖掘 2019年4月9日 23 375 entries in the matrix SVD用于图像压缩 an array of 15*25 black or white pixels 01=14.72 02=5.22 03=3.31 represent the data in a more compact form M=U 01 ViT u202 V2T u303 V3T This means that we have three vectors vi,each of which has 15 entries,three vectors ui,each of which has 25 entries,and three singular values o:.This implies that we may represent the matrix using only 123 numbers rather than the 375 that appear in the matrix.In this way,the singular value decomposition discovers the redundancy in the matrix and provides a format for eliminating it. http://www.ams.org/samplings/feature-column/fcarc-svd

信息检索与数据挖掘 2019年4月9日 23 SVD用于图像压缩 an array of 15*25 black or white pixels represent the data in a more compact form 375 entries in the matrix M=u1σ1 v1 T + u2σ2 v2 T + u3σ3 v3 T σ1 = 14.72 σ2 = 5.22 σ3 = 3.31 This means that we have three vectors vi , each of which has 15 entries, three vectors ui , each of which has 25 entries, and three singular values σi . This implies that we may represent the matrix using only 123 numbers rather than the 375 that appear in the matrix. In this way, the singular value decomposition discovers the redundancy in the matrix and provides a format for eliminating it. http://www.ams.org/samplings/feature-column/fcarc-svd

信息检索与数据挖掘 2019年4月9日 24 SVD用于图像去噪 Noisy image Improved image 01=14.15 02=4.67 03=3.00 04=0.21 05=0.19 016=0.05 M=U01 ViT U202 V2T u303 V3T http://www.ams.org/samplings/feature-column/fcarc-svd

信息检索与数据挖掘 2019年4月9日 24 SVD用于图像去噪 σ1 = 14.15 σ2 = 4.67 σ3 = 3.00 σ4 = 0.21 σ5 = 0.19 ... σ15 = 0.05 M=u1σ1 v1 T + u2σ2 v2 T + u3σ3 v3 T http://www.ams.org/samplings/feature-column/fcarc-svd

点击进入文档下载页（PDF格式）

共72页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）课程要求（论文阅读&研讨）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第9章基于语言建模的检索模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第8章概率模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第7章相关反馈和查询扩展
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第6章检索的评价
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.2 检索系统
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第5章向量模型及检索系统 5.1 向量模型
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.2 索引压缩
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第4章索引构建与索引压缩 4.1 索引构建
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第3章词项词典和倒排记录表
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第2章布尔检索和倒排索引
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第1章绪论（主讲：陈晓辉）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（文本分类及朴素贝叶斯方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（基于向量空间的文本分类）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第10章文本分类（支持向量机及机器学习方法）
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）概率图及主题模型 Probabilistic Graphical Models Topic Model
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第11章文本聚类
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）图像分类的算法思想
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）数据挖掘经典算法概述
中国科学技术大学：《信息检索与数据挖掘》课程教学资源（课件讲稿）第12章 Web搜索
长沙医学院：信息工程学院课程简介
南京大学：《信息与计算科学导论》课程教学资源（课件讲稿）集合与关系 Sets-and-Relations
南京大学：《信息与计算科学导论》课程教学资源（课件讲稿）递归算法与递归方程 Recursive Algorithm and Recurrence Relations
《管理信息系统》课程教学资源（书籍教材）第2章管理信息系统的技术基础

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录