当前位置：和泉文库 > 科研学术 > 浏览文档

《自动化学报》：数字抠像的最新研究进展（中国科学院深圳先进技术研究院）

本文首先介绍了目前数字抠像的交互方式,然后把抠像技术分为基于颜色采样、基于像素相似性、基于能量函数以及基于机器学习的四类技术,介绍和分析了其中的典型算法和最新研究成果,并对这些算法的测试结果进行了定量和定性比较,最后总结了数字抠像技术目前的研究状况和未来的发展方向。

文件格式：PDF，文件大小：5.11MB，售价：4.16元

文档详细内容（约14页）

第38卷第10期自动化学报 Vol 38. No 10 2012年10月 ACTA AUTOMATICA SINICA October 2012 数字抠像的最新研究进展张展鹏12朱青松1谢耀钦1 摘要数字抠像是图像处理、视频编辑和电影制作中的关键技术.通过数字抠像,从图像或视频的背景中精确地分离岀前景,是计算机视觉领域的重要问题.本文首先介绍了目前数字抠像的交互方式,然后把抠像技术分为基于颜色采样、基于像素相似性、基于能量函数以及基于机器学习的四类技术,介绍和分析了其中的典型算法和最新研究成果,并对这些算法的测试结果进行了定量和定性比较,最后总结了数字抠像技术目前的研究状况和未来的发展方向关键词数字抠像,自然图像抠像,图像分割,图像处理用格式张展鹏,朱青松,谢耀钦.数字抠像的最新研究进展.自动化学报,2012,38(10):1571-1584 DOI10.3724/SPJ.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng,- ZHU Qing-Song XIE Yao-Qin Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571-1584 数字抠像( Digital matting)是指从图像或视频的前景边缘,图像离散化过程中造成的非连续性、运的背景中精确地分离出前景,是图像处理、视频编辑动或光照带来的模糊是形成混合像素的主要原因和电影制作中的关键技术,已得到广泛的研究和应对于彩色图像Ⅰ,需要为每个像素I2估计前景用.抠像过程中,设图像Ⅰ包含N个像素,即I=色、背景色以及前景不透明度.已知该像素的颜色 I1,I2,I3…,IN},其中每个像素2的颜色C2 C2,若采用RGB颜色空间表示,则C2,F2,B 表示成其前景色F2与背景色B2的线性组合,即为三维向量,对于式(1)可得出3个方程,3个已知 C2=a2F2+(1-a2)B (1)变量和7个未知变量.显然这是不定方程,即病态 (I- posed)问题叫.因此,通常需要使用先验假设或下文将式(1)称为抠像方程.其中a2∈[0.,1],表示用户提供的额外信息,为抠像问题增加限制条件,然像素Ⅰ在图像中的前景不透明度.若α2=1,则该后进行求解.灰度图像与此类似像素属于前景,若α2=0,则属于背景.若0<a2 早期研究中,通过把前景物体置于已知颜色的 <1,则该像素为前景与背景的混合,可称为“混合背景前采集图像,从而减少方程中的未知数,这种方像素”.混合像素一般出现在半透明的物体或毛绒状法被称为“蓝屏抠像”. Smith等在1996年就提出收稿日期2011-1008录用日期201205-10 种三角抠像法2.该方法把同一前景物体置于多 anuscnipt received octoner:201 accepted1:边012个不同的背景中,得到多幅图像,再抠选前景.因为科学基金(81171402,30928030)资助这些背景的颜色已知,增加了抠像问题中的己知信 Supported by National Basic Research Program of China(973息,使得抠像方程有确定的解.由于三角抠像把抠像 ga3问题转化为求解超定方程,且抠像效果良好,在目前本文责任编委戴琼海的研究中,常被用于生成标准的抠像结果( Ground 1.中国科学深圳先进技木研究院深51852中山大学广州 truth)1-4(如图1(d),作为算法测试和评价的依 510275 据.然而,由于蓝屏抠像需要已知且固定的背景,因 Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen Uni- 此应用范围不广 ersity, Guangzhou 510275

第 38 卷第 10 期自动化学报 Vol. 38, No. 10 2012 年 10 月 ACTA AUTOMATICA SINICA October, 2012 数字抠像的最新研究进展张展鹏 1, 2 朱青松 1 谢耀钦 1 摘要数字抠像是图像处理、视频编辑和电影制作中的关键技术. 通过数字抠像, 从图像或视频的背景中精确地分离出前景, 是计算机视觉领域的重要问题. 本文首先介绍了目前数字抠像的交互方式, 然后把抠像技术分为基于颜色采样、基于像素相似性、基于能量函数以及基于机器学习的四类技术, 介绍和分析了其中的典型算法和最新研究成果, 并对这些算法的测试结果进行了定量和定性比较, 最后总结了数字抠像技术目前的研究状况和未来的发展方向. 关键词数字抠像, 自然图像抠像, 图像分割, 图像处理引用格式张展鹏, 朱青松, 谢耀钦. 数字抠像的最新研究进展. 自动化学报, 2012, 38(10): 1571−1584 DOI 10.3724/SP.J.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng1, 2 ZHU Qing-Song1 XIE Yao-Qin1 Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that, matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested. Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571−1584 数字抠像 (Digital matting) 是指从图像或视频的背景中精确地分离出前景, 是图像处理、视频编辑和电影制作中的关键技术, 已得到广泛的研究和应用. 抠像过程中, 设图像 I 包含 N 个像素, 即 I = {I1, I2, I3, · · · , IN }, 其中每个像素 Iz 的颜色 Cz 可表示成其前景色 Fz 与背景色 Bz 的线性组合, 即 Cz = αzFz + (1 − αz)Bz (1) 下文将式 (1) 称为抠像方程. 其中 αz ∈ [0, 1], 表示像素 Iz 在图像中的前景不透明度. 若 αz = 1, 则该像素属于前景, 若 αz = 0, 则属于背景. 若 0 < αz < 1, 则该像素为前景与背景的混合, 可称为 “混合像素”. 混合像素一般出现在半透明的物体或毛绒状收稿日期 2011-10-08 录用日期 2012-05-10 Manuscript received October 8, 2011; accepted May 10, 2012 国家重点基础研究发展计划 (973 计划) (2010CB732606), 国家自然科学基金 (81171402, 30928030) 资助 Supported by National Basic Research Program of China (973 Program) (2010CB732606) and National Natural Science Foundation of China (81171402, 30928030) 本文责任编委戴琼海 Recommended by Associate Editor DAI Qiong-Hai 1. 中国科学院深圳先进技术研究院深圳 518055 2. 中山大学广州 510275 1. Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen University, Guangzhou 510275 的前景边缘, 图像离散化过程中造成的非连续性、运动或光照带来的模糊是形成混合像素的主要原因. 对于彩色图像 I, 需要为每个像素 Iz 估计前景色、背景色以及前景不透明度. 已知该像素的颜色 Cz, 若采用 RGB 颜色空间表示, 则 Cz, Fz, Bz 均为三维向量, 对于式 (1) 可得出 3 个方程, 3 个已知变量和 7 个未知变量. 显然这是不定方程, 即病态 (Ill-posed) 问题[1] . 因此, 通常需要使用先验假设或用户提供的额外信息, 为抠像问题增加限制条件, 然后进行求解. 灰度图像与此类似. 早期研究中, 通过把前景物体置于已知颜色的背景前采集图像, 从而减少方程中的未知数, 这种方法被称为 “蓝屏抠像”. Smith 等在 1996 年就提出一种三角抠像法[2] . 该方法把同一前景物体置于多个不同的背景中, 得到多幅图像, 再抠选前景. 因为这些背景的颜色已知, 增加了抠像问题中的已知信息, 使得抠像方程有确定的解. 由于三角抠像把抠像问题转化为求解超定方程, 且抠像效果良好, 在目前的研究中, 常被用于生成标准的抠像结果 (Ground truth)[3−4] (如图 1 (d)), 作为算法测试和评价的依据. 然而, 由于蓝屏抠像需要已知且固定的背景, 因此应用范围不广

1572 自动化学报 38卷 (a)原始图像 (b)三分图 (c)涂鸦方式 (d)标准结果 a) Input image (b) Trimap (d) Ground truth 图1数字抠像的交互方式 Fig 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像,即不对背景界较长或形状复杂的情况下,这种工作仍然繁琐进行限制,面向任意的自然图像.此外,数字抠像的扩展应用,如环境抠像、阴影抠像以及视频抠像,也1.2涂鸦方式受到关注同.环境抠像除了精确地提取前景以外, 由于生成三分图的工作比较困难和繁琐,为了还需要得到物体对光照的反射和折射特性使得前提高数字抠像的实用性,越来越多抠像技术采用涂景物体在新合成的图像中也能体现这些性质间,这鸦方式1,以提供良好的用户体验。如图1(, 种技术对于透明物体的抠像特别重要.阴影抠像用户只需通过涂鸦式的操作,使用笔刷,在前景和背把图像中的阴影部分提取出来,去除原图像的阴景的其中一小部分上做标记由于涂鸦的结果可看影或把阴影合成到新的背景.视频抠像可看作三分图的子集,一般支持涂鸦式交互的技术也支作数字抠像在连续图像序列的扩展,有效的物体跟持三分图.涂鸦方式下,用户的输入更为简单.然踪10和运动分割山能简化用户的操作而,由于只对某部分进行了标记,没有得到较为完整由于自然图像抠像是近年的研究热点、具有实的前景和背景样本,难以对大面积的未知区域进行用价值且应用广泛,因此下文的论述中将以自然图估算.因此,一些算法先进行图像分割,自动生成大像抠像为重点展开,介绍数字抠像最新的研究进展.致的三分图,或者从标记的已知区域开始,迭代同时为了内容的全面性及完整性,也会详细分析式地对附近的像素进行估算,逐渐增大已知区域直些经典算法到抠像完成8.也有算法把用户的标记转化为求解 1数字抠像的交互方式不定方程的限制条件121.还有采用迭代式的涂鸦即根据用户的每次涂鸦操作,对结果进行改进.文献由于数字抠像是一个病态问题,需要获得额外14中实现了一种基于涂鸦输入的交互式抠像方法, 的信息进行求解,因此,在目前的算法中,经常通过每次用户添加了新的涂鸦标记后,算法只需更新图用户的交互,获得更多输入信息,构建约束条件.主中的部分像素而不需重新全部计算,从而提高响应要的交互方式有三分图和涂鸦方式速度.然而,当用户涂鸦出错想擦去时,则没有应对 11三分图的方案,或者需要重新对全部像素进行计算.此外由于涂鸦操作获得的初始样本较少,实际中算法不三分图( Trimap)是指一幅大小与原图像相等定能得到有代表性的样本,而且抠像效果容易受的图像,图像被用户划分为前景区、背景区以及未知到图像噪声的影响区域.在这种情况下,前景/背景区为已知区域,抠像除了三分图和涂鸦方式,也有其他的交互方式算法需要估算未知区域像素的前景色、背景色以及比如在 GrabCutl中,用户使用一个矩形框选中图前景不透明度.图1(b)为一幅三分图,其中背景标像中的前景部分.在很多情况下,这种方式更为直注为黑色,前景为白色,灰色为未知区域.三分图是观.但是,由于选中的区域中也包含了部分背景,算对原图像的粗略划分,是自然图像抠像的研究中,最法不能获得准确的前景样本,难以确定前景边界,需开始采用的输入方式.文献阝3,12]等均采用三分图要用户进行一些边界标注.还有方法首先通过无监作为算法的输入.然而,创建一幅三分图往往需要督的方式,根据像素间的相似性,自动地对图像进行较多的用户操作,对于一些形状复杂的图像(如蜘蛛区域分割,然后指导用户在需要提取的区域上点击网),创建的工作非常困难. Soft scissors中实现或做上记号,接着通过这些标记信息对各个区域进了一种智能的描边笔刷,能够根据实时的描边情况行合并或提取,继续完成抠像20-21. 改变笔刷大小,降低边界定位的难度,然而在前景边上述方法中,虽然用户操作的复杂性不同,但共

1572 自动化学报 38 卷图 1 数字抠像的交互方式 Fig. 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像, 即不对背景进行限制, 面向任意的自然图像. 此外, 数字抠像的扩展应用, 如环境抠像、阴影抠像以及视频抠像, 也受到关注[5] . 环境抠像除了精确地提取前景以外, 还需要得到物体对光照的反射和折射特性, 使得前景物体在新合成的图像中也能体现这些性质[6] . 这种技术对于透明物体的抠像[7] 特别重要. 阴影抠像是把图像中的阴影部分提取出来, 去除原图像的阴影[8] 或把阴影合成到新的背景[9] . 视频抠像可看作数字抠像在连续图像序列的扩展, 有效的物体跟踪[10] 和运动分割[11] 能简化用户的操作. 由于自然图像抠像是近年的研究热点、具有实用价值且应用广泛, 因此下文的论述中将以自然图像抠像为重点展开, 介绍数字抠像最新的研究进展. 同时为了内容的全面性及完整性, 也会详细分析一些经典算法. 1 数字抠像的交互方式由于数字抠像是一个病态问题, 需要获得额外的信息进行求解, 因此, 在目前的算法中, 经常通过用户的交互, 获得更多输入信息, 构建约束条件. 主要的交互方式有三分图和涂鸦方式. 1.1 三分图三分图 (Trimap) 是指一幅大小与原图像相等的图像, 图像被用户划分为前景区、背景区以及未知区域. 在这种情况下, 前景/背景区为已知区域, 抠像算法需要估算未知区域像素的前景色、背景色以及前景不透明度. 图 1 (b) 为一幅三分图, 其中背景标注为黑色, 前景为白色, 灰色为未知区域. 三分图是对原图像的粗略划分, 是自然图像抠像的研究中, 最开始采用的输入方式. 文献 [3, 12] 等均采用三分图作为算法的输入. 然而, 创建一幅三分图往往需要较多的用户操作, 对于一些形状复杂的图像 (如蜘蛛网), 创建的工作非常困难. Soft scissors[13] 中实现了一种智能的描边笔刷, 能够根据实时的描边情况改变笔刷大小, 降低边界定位的难度, 然而在前景边界较长或形状复杂的情况下, 这种工作仍然繁琐. 1.2 涂鸦方式由于生成三分图的工作比较困难和繁琐, 为了提高数字抠像的实用性, 越来越多抠像技术采用涂鸦方式[14−16] , 以提供良好的用户体验. 如图 1 (c), 用户只需通过涂鸦式的操作, 使用笔刷, 在前景和背景的其中一小部分上做标记. 由于涂鸦的结果可看作三分图的子集, 一般支持涂鸦式交互的技术也支持三分图. 涂鸦方式下, 用户的输入更为简单. 然而, 由于只对某部分进行了标记, 没有得到较为完整的前景和背景样本, 难以对大面积的未知区域进行估算. 因此, 一些算法先进行图像分割, 自动生成大致的三分图[17] , 或者从标记的已知区域开始, 迭代式地对附近的像素进行估算, 逐渐增大已知区域直到抠像完成[18] . 也有算法把用户的标记转化为求解不定方程的限制条件[12,16] . 还有采用迭代式的涂鸦, 即根据用户的每次涂鸦操作, 对结果进行改进. 文献 [14] 中实现了一种基于涂鸦输入的交互式抠像方法, 每次用户添加了新的涂鸦标记后, 算法只需更新图中的部分像素而不需重新全部计算, 从而提高响应速度. 然而, 当用户涂鸦出错想擦去时, 则没有应对的方案, 或者需要重新对全部像素进行计算. 此外, 由于涂鸦操作获得的初始样本较少, 实际中算法不一定能得到有代表性的样本, 而且抠像效果容易受到图像噪声的影响. 除了三分图和涂鸦方式, 也有其他的交互方式. 比如在 GrabCut[19] 中, 用户使用一个矩形框选中图像中的前景部分. 在很多情况下, 这种方式更为直观. 但是, 由于选中的区域中也包含了部分背景, 算法不能获得准确的前景样本, 难以确定前景边界, 需要用户进行一些边界标注. 还有方法首先通过无监督的方式, 根据像素间的相似性, 自动地对图像进行区域分割, 然后指导用户在需要提取的区域上点击或做上记号, 接着通过这些标记信息对各个区域进行合并或提取, 继续完成抠像[20−21] . 上述方法中, 虽然用户操作的复杂性不同, 但共

10期张展鹏等:数字抠像的最新研究进展同的特点是,用户需要对图像中的某些区域进行标文献[18]在求解P(F),P(B)时,没有使用统计模记,指明前景区或背景区,因此属于半自动的方式.型对样本进行匹配或聚类,而仅仅基于空间距离和而一些研究中致力于实现全自动抠像.例如,闪光算法对样本的“置信度”,进行前景/背景色的估算, ( Flash)抠像2通过对同一场景进行两次拍摄,分从而达到减少计算量的目的;文献27则分别对前别开启和关闭闪光灯,得到两张图像作为算法的输景和背景区域使用全局的高斯混合模型( Gaussian 入.计算过程中取两张图像的差值,近似地提取出 mixture model,GMM)进行统计建模,减少采用局被闪光的前景,然后进行自动抠像.另外,立体图像部统计带来的计算量.然而,这些方法仍未解决基于 Stereo image)23、同一场景下不同焦点平面的多颜色采样的技术中普遍存在的问题,即在前景和背幅图像2也被作为算法输入,实现自动抠像景颜色接近、具有相似的统计特征或者色彩模糊的 2数字抠像的主要技术情况下,效果往往不佳.其主要原因是采集的样本只是图像中相近的像素,这些像素不一定能够有效地 21基于颜色采样的技术表示出未知像素的特征普遍图像中,相近的像素在统计特征上往往具为了提高颜色采样的效果,采样技术成为了近有相关性可以对相近的像素进行颜色采样,根据年来数字抠像的研究热点-3.wang等在2007 样本颜色的特点对未知区域像素的抠像参数(F,B,年提出 Robust matting方案,方案中根据“信任 a)进行估算. Berman等凹2对周边确定区域像素系数”的大小判断一对前景/背景像素能否作为样的前景/背景色进行加权,作为未知区域像素的估算本,信任系数的计算主要考虑样本与未知像素间的结果. ruzon等阅则最先在数字抠像中引入概率统颜色空间距离.而对于候选样本集的构建,与之前计,其基本思想是:对于未知区域的像素,先取附近的方法不同,不仅选取和未知像素相近的点,同时已知的前景和背景像素作为样本,进行聚类和统计,沿着附近已知区域的边缘进行扩张通常,抠像中需每个聚类使用高斯模型进行描述.然后根据样本颜要处理很多条状的未知区域(例如头发),这种方法色的概率模型和未知区域像素的颜色,估算未知像可以取得距离更远和种类更丰富的样本,而且样本素与前景背景中各个聚类的相似度,推导该像素的的颜色也与未知像素较为接近但有些情况下,三分前景不透明度.2001年,Chag圜在此基础上图中的未知区域较宽,而且已知区域的边缘处,其形提出了贝叶斯抠像( Bayesian matting.这种方法状、颜色与未知区域也不吻合,这种方法得到的样使用贝叶斯公式,把未知像素的估算问题转化为本并不具有代表性. Riemann等指出,测地线个最大后验概率问题.算法已知该像素的颜色C, 距离能够反映图像中的形状信息,同一形状上的像标是通过估计前景色F、背景色B以及a值,最大素关联度更大,因此可以用测地线距离进行辅助,建化后验概率,如式(2)所示立候选样本集.如图2(a)中,F和B区域分别是三分图中指定的前景区和背景区,灰色和白色的采 arg max P(F, B, aC) 样点分别表示Wang和 Riemann的方法得到的结 BEax P(CIF, B, a)P(F)P(B)P(a) 果可以看出,灰色的点与未知像素(即图2(a)中的 P(C) 点i)分布在同一物体上,颜色特征会更接近.然而上述两种方法都是从邻近像素出发,进行扩张的,要 (2)利用位置距离更远的像素,则需要遍历较大的空间其中概率P()均使用高斯分布模型进行描述.其从而带来很大的计算量.2010年, Gastal等在其中P(a)看作常数.P(C|F,B,a)使用aF-(1 Shared matting[30方案中,通过相邻像素间共享候 α)B作为高斯分布的均值.而对于P(F),P(B),在选样本来减少计算开销而且,在采集候选样本的时未知像素附近采集前景/背景样本,分别进行聚类.候,从每个像素出发,沿四条射线向外寻找,从而扩求出每个聚类中的均值和协方差矩阵作为高斯分布大采集范围(如图2(b),He等在201l年的最的参数,求解F,B对应的概率.由于抠像过程中,新成果中,进一步设计了一个全局的采样方法.三分需要对每个未知像素的样本进行聚类和统计,因此图中的所有前景F和背景B的像素组成一个大小计算量较大.而且,算法把未知区域看成前景区与背为NF×NB的矩阵,作为候选样本的“FB搜索空景区夹着的带状区域,抠像时,从带状区域两侧开间”.然后,把候选样本的采集看作图像像素与FB 始计算,逐步向中间部分推进,计算中会利用之前己搜索空间中样本对的匹配问题(如图2(c),匹配的求解的像素作为样本,所以求解过程中的误差会被标准基于颜色空间距离以及像素位置距离.为了避累积,这种现象在带状区域较宽的情况下更为明显.免对FB搜索空间的穷举,把样本的搜索算法分为不过,这种算法已取得当时最好的效果,所以得到两步:扩张搜索与随机搜索.算法的运行过程中,交广泛的参考和改进,是数字抠像的经典算法.例如,替地执行这两个步骤,添加符合的样本在扩张搜索

10 期张展鹏等: 数字抠像的最新研究进展 1573 同的特点是, 用户需要对图像中的某些区域进行标记, 指明前景区或背景区, 因此属于半自动的方式. 而一些研究中致力于实现全自动抠像. 例如, 闪光 (Flash) 抠像[22] 通过对同一场景进行两次拍摄, 分别开启和关闭闪光灯, 得到两张图像作为算法的输入. 计算过程中取两张图像的差值, 近似地提取出被闪光的前景, 然后进行自动抠像. 另外, 立体图像 (Stereo image)[23]、同一场景下不同焦点平面的多幅图像[24] 也被作为算法输入, 实现自动抠像. 2 数字抠像的主要技术 2.1 基于颜色采样的技术普遍图像中, 相近的像素在统计特征上往往具有相关性, 可以对相近的像素进行颜色采样, 根据样本颜色的特点对未知区域像素的抠像参数 (F, B, α) 进行估算. Berman 等[25] 对周边确定区域像素的前景/背景色进行加权, 作为未知区域像素的估算结果. Ruzon 等[26] 则最先在数字抠像中引入概率统计, 其基本思想是: 对于未知区域的像素, 先取附近已知的前景和背景像素作为样本, 进行聚类和统计, 每个聚类使用高斯模型进行描述. 然后根据样本颜色的概率模型和未知区域像素的颜色, 估算未知像素与前景/背景中各个聚类的相似度, 推导该像素的前景不透明度. 2001 年, Chuang 等[3] 在此基础上提出了贝叶斯抠像 (Bayesian matting). 这种方法使用贝叶斯公式, 把未知像素的估算问题转化为一个最大后验概率问题. 算法已知该像素的颜色 C, 目标是通过估计前景色 F、背景色 B 以及 α 值, 最大化后验概率, 如式 (2) 所示: arg max F,B,α P(F, B, α|C) = arg max F,B,α P(C|F, B, α)P(F)P(B)P(α) P(C) (2) 其中概率 P(·) 均使用高斯分布模型进行描述. 其中 P(α) 看作常数. P(C|F, B, α) 使用 αF − (1 − α)B 作为高斯分布的均值. 而对于 P(F), P(B), 在未知像素附近采集前景/背景样本, 分别进行聚类. 求出每个聚类中的均值和协方差矩阵作为高斯分布的参数, 求解 F, B 对应的概率. 由于抠像过程中, 需要对每个未知像素的样本进行聚类和统计, 因此计算量较大. 而且, 算法把未知区域看成前景区与背景区夹着的带状区域, 抠像时, 从带状区域两侧开始计算, 逐步向中间部分推进, 计算中会利用之前已求解的像素作为样本, 所以求解过程中的误差会被累积, 这种现象在带状区域较宽的情况下更为明显. 不过, 这种算法已取得当时最好的效果, 所以得到广泛的参考和改进, 是数字抠像的经典算法. 例如, 文献 [18] 在求解 P(F), P(B) 时, 没有使用统计模型对样本进行匹配或聚类, 而仅仅基于空间距离和算法对样本的 “置信度”, 进行前景/背景色的估算, 从而达到减少计算量的目的; 文献 [27] 则分别对前景和背景区域使用全局的高斯混合模型 (Gaussian mixture model, GMM) 进行统计建模, 减少采用局部统计带来的计算量. 然而, 这些方法仍未解决基于颜色采样的技术中普遍存在的问题, 即在前景和背景颜色接近、具有相似的统计特征或者色彩模糊的情况下, 效果往往不佳. 其主要原因是采集的样本只是图像中相近的像素, 这些像素不一定能够有效地表示出未知像素的特征. 为了提高颜色采样的效果, 采样技术成为了近年来数字抠像的研究热点[28−31]. Wang 等在 2007 年提出 Robust matting[28] 方案, 方案中根据 “信任系数” 的大小判断一对前景/背景像素能否作为样本. 信任系数的计算主要考虑样本与未知像素间的颜色空间距离. 而对于候选样本集的构建, 与之前的方法不同, 不仅选取和未知像素相近的点, 同时沿着附近已知区域的边缘进行扩张. 通常, 抠像中需要处理很多条状的未知区域 (例如头发), 这种方法可以取得距离更远和种类更丰富的样本, 而且样本的颜色也与未知像素较为接近. 但有些情况下, 三分图中的未知区域较宽, 而且已知区域的边缘处, 其形状、颜色与未知区域也不吻合, 这种方法得到的样本并不具有代表性. Rhemann 等[29] 指出, 测地线距离能够反映图像中的形状信息, 同一形状上的像素关联度更大, 因此可以用测地线距离进行辅助, 建立候选样本集. 如图 2 (a) 中, F 和 B 区域分别是三分图中指定的前景区和背景区, 灰色和白色的采样点分别表示 Wang 和 Rhemann 的方法得到的结果. 可以看出, 灰色的点与未知像素 (即图 2 (a) 中的点 i) 分布在同一物体上, 颜色特征会更接近. 然而, 上述两种方法都是从邻近像素出发, 进行扩张的, 要利用位置距离更远的像素, 则需要遍历较大的空间, 从而带来很大的计算量. 2010 年, Gastal 等在其 Shared matting[30] 方案中, 通过相邻像素间共享候选样本来减少计算开销. 而且, 在采集候选样本的时候, 从每个像素出发, 沿四条射线向外寻找, 从而扩大采集范围 (如图 2 (b)). He 等[31] 在 2011 年的最新成果中, 进一步设计了一个全局的采样方法. 三分图中的所有前景 F 和背景 B 的像素组成一个大小为 NF × NB 的矩阵, 作为候选样本的 “F B 搜索空间”. 然后, 把候选样本的采集看作图像像素与 F B 搜索空间中样本对的匹配问题 (如图 2 (c)), 匹配的标准基于颜色空间距离以及像素位置距离. 为了避免对 F B 搜索空间的穷举, 把样本的搜索算法分为两步: 扩张搜索与随机搜索. 算法的运行过程中, 交替地执行这两个步骤, 添加符合的样本: 在扩张搜索

1574 自动化学报 38卷中,根据邻近像素相似,考虑当前最佳样本的邻近节邻像素间的前景/背景色平滑过渡12、具有相同的点;在随机搜索中,则考虑一定范围内随机选定的样模糊连接度( Fuzzy connectedness91.与颜色采样本对.由于采用了全局的采样方法,可以有效避免合的技术相比,所用的邻近像素较少,可以充分利用邻适样本的丢失,同时,使用扩张搜索和随机搜索相结近像素的相关性,减少由于颜色采样中样本选取不合的方式,避免了穷举搜索带来的巨大计算量当导致的错误.而且基于邻近像素的相似性,可以促使求解出的前景不透明度在像素间平滑过渡,减少颜色采样技术中可能产生的不连续问题,有利于提高视觉效果. 这类技术中最典型的是泊松抠像12,由Sun等在2004年国际图形学会议( SIGGRAPH)论文中提出.该算法把抠像问题转化成求解关于a梯度的泊松方程.首先对抠像方程的左右两边求偏导,得 a)文献[29]中的采样方法 (b)文献[30]中的采样方法 (b) Sampling method of [30] VC=(F-BVa+aVF+(1-a)VB 3) 前景样本(F 其中,V=(品,).算法中假设图像中的前景色和背景色平滑过渡,因此aⅤF+(1-a)VB相对较小,可以忽略.a值的梯度Vo约等于C.然后利用三分图中的区域划分,已知区域边缘像素的a值定为0或1,从而确定了狄里克雷边界条件,可以求解对应的泊松方程(如式(4),得到α值. (c)文献[31]中的采样方法 (c)Sampling method of [31] F-B 图2抠像中的多种采样方法29-31 Fgs2 Various sampling methods in image matting中,△=(品+)为拉普拉斯算子,dv表示相应的研究.Lim等2使用感知颜色空间替换RGB化F,B的取值以使得a的变化足够小由于F,B 颜色空间进行建模,把透明度的计算细分为亮度和的初始值从最近的点选取,而且迭代过程中没有有色度透明度的计算,提高计算的精确度.Ch0等效的信息对F,B进行优化,只是基于图像“平滑过的方法则关注未知像素和附近样本颜色间的关系.渡”的假设,因此,在一些颜色复杂的图像中,这不基于二次贝塞尔( Bezier)曲线,引入了一个自适应能取得好的结果.为此,Sum等也提出了局部泊松抠的颜色曲线模型,对局部区域中各像素的颜色进行像,即通过用户对局部区域的操作,为全局抠像中忽描述.通过计算未知像素的颜色在曲线中的位置,得略的部分进行赋值,加入到计算中,在一些背景较复出抠像参数杂的图片中取得了比贝叶斯抠像更好的结果.然而中,抠像结果的质量差异很大叫在三分图被仔细时间较长、Dn等对此进行了改进,提出使用果.在纹理或色彩复杂的情况下,样本选取不当会对也作为抠像算法的输入同时,把原来基于散度的泊抠像结果产生不良的影响.为了提高采样统计的有松方程(式(4)改写成基于特征值的方程,使得方效性,近年来研究学者做了各种努力.然而,由于目程求解中更好地体现图像细节.通过这些方法,用户前候选样本的采用标准只考虑位置和颜色距离,仍只需提供初始的三分图而不需进行进一步的调整操然不能避免一些原本相关性不大的样本获得较高的作,提高了抠像效率信任系数,特别是在一些颜色模糊的区域由于测地线距离可以反映图像中物体的形状信息,基于测地线的抠像方法近几年也受到关 22基于像素相似性的技术注B,37-38.Bai等倒提出基于测地线的抠像框架基于像素相似性的技术假设在某种距离(例如其基本思想是使用像素间的测地线距离,结合前景位置距离、颜色空间距离)下,邻近的像素具有相似和背景的颜色概率分布,求出未知像素与前景的相的属性或符合一定的规律12.1434-36,例如,假设相似度,从而得出a值.像素间的测地线距离定义为

1574 自动化学报 38 卷中, 根据邻近像素相似, 考虑当前最佳样本的邻近节点; 在随机搜索中, 则考虑一定范围内随机选定的样本对. 由于采用了全局的采样方法, 可以有效避免合适样本的丢失, 同时, 使用扩张搜索和随机搜索相结合的方式, 避免了穷举搜索带来的巨大计算量. 图 2 抠像中的多种采样方法[29−31] Fig. 2 Various sampling methods in image matting[29−31] 除了前景/背景的采样技术, 颜色模型方面也有相应的研究. Lin 等[32] 使用感知颜色空间替换 RGB 颜色空间进行建模, 把透明度的计算细分为亮度和色度透明度的计算, 提高计算的精确度. Cho 等[33] 的方法则关注未知像素和附近样本颜色间的关系. 基于二次贝塞尔 (Bezier) 曲线, 引入了一个自适应的颜色曲线模型, 对局部区域中各像素的颜色进行描述. 通过计算未知像素的颜色在曲线中的位置, 得出抠像参数. 总体来说, 基于颜色采样的技术, 在不同的图像中, 抠像结果的质量差异很大[1] . 在三分图被仔细定义、前景/背景对比明显的情况下会取得良好的效果. 在纹理或色彩复杂的情况下, 样本选取不当会对抠像结果产生不良的影响. 为了提高采样统计的有效性, 近年来研究学者做了各种努力. 然而, 由于目前候选样本的采用标准只考虑位置和颜色距离, 仍然不能避免一些原本相关性不大的样本获得较高的信任系数, 特别是在一些颜色模糊的区域. 2.2 基于像素相似性的技术基于像素相似性的技术假设在某种距离 (例如位置距离、颜色空间距离) 下, 邻近的像素具有相似的属性或符合一定的规律[12,14,34−35] , 例如, 假设相邻像素间的前景/背景色平滑过渡[12]、具有相同的模糊连接度 (Fuzzy connectedness)[14] . 与颜色采样的技术相比, 所用的邻近像素较少, 可以充分利用邻近像素的相关性, 减少由于颜色采样中样本选取不当导致的错误. 而且基于邻近像素的相似性, 可以促使求解出的前景不透明度在像素间平滑过渡, 减少颜色采样技术中可能产生的不连续问题, 有利于提高视觉效果. 这类技术中最典型的是泊松抠像[12] , 由 Sun 等在 2004 年国际图形学会议 (SIGGRAPH) 论文中提出. 该算法把抠像问题转化成求解关于 α 梯度的泊松方程. 首先对抠像方程的左右两边求偏导, 得: ∇C = (F − B)∇α + α∇F + (1 − α)∇B (3) 其中, ∇ = ( ∂ ∂x , ∂ ∂y ). 算法中假设图像中的前景色和背景色平滑过渡, 因此 α∇F + (1 − α)∇B 相对较小, 可以忽略. α 值的梯度 ∇α 约等于 ∇C F −B . 然后利用三分图中的区域划分, 已知区域边缘像素的 α 值定为 0 或 1, 从而确定了狄里克雷边界条件, 可以求解对应的泊松方程 (如式 (4)), 得到 α 值. ∆α = div µ ∇C F − B ¶ (4) 其中, ∆ = ( ∂ 2 ∂x2 + ∂ 2 ∂y2 ) 为拉普拉斯算子, div 表示散度. 接着, 使用迭代的方法进行求解, 即不断地优化 F, B 的取值以使得 α 的变化足够小. 由于 F, B 的初始值从最近的点选取, 而且迭代过程中没有有效的信息对 F, B 进行优化, 只是基于图像 “平滑过渡” 的假设, 因此, 在一些颜色复杂的图像中, 这不能取得好的结果. 为此, Sun 等也提出了局部泊松抠像, 即通过用户对局部区域的操作, 为全局抠像中忽略的部分进行赋值, 加入到计算中, 在一些背景较复杂的图片中取得了比贝叶斯抠像更好的结果. 然而, 局部泊松抠像需要较多的用户交互, 整个抠像过程时间较长. Du 等[36] 对此进行了改进, 提出使用一系列的滤波操作提取图像的细微特征, 把这些特征也作为抠像算法的输入. 同时, 把原来基于散度的泊松方程 (式 (4)) 改写成基于特征值的方程, 使得方程求解中更好地体现图像细节. 通过这些方法, 用户只需提供初始的三分图而不需进行进一步的调整操作, 提高了抠像效率. 由于测地线距离可以反映图像中物体的形状信息, 基于测地线的抠像方法近几年也受到关注[34, 37−38]. Bai 等[34] 提出基于测地线的抠像框架. 其基本思想是使用像素间的测地线距离, 结合前景和背景的颜色概率分布, 求出未知像素与前景的相似度, 从而得出 α 值. 像素间的测地线距离定义为

10期张展鹏等:数字抠像的最新研究进展 1575 d(x,2)=min/w.Cp)(5)某两种颜色的线性组合,区域内像素的F和B分布在RGB空间的同一直线上.基于这个假定,可以推其中,Cx:是连接像素x与z之间的路径.作为权导出类似上述的结果 Levin等的这种方法通过添加值的W表征像素与前景相似度的梯度,定义为个较弱的假设,结合巧妙的代数变换,最终把抠像方程这个不定问题转化为确定问题,并求出了闭合 W=VPF()=V P(|F) 解. P(a F)+ P(B) Closed- form matting中推导出的矩阵L被称其中,P(叫F),P(叫B)分别代表前景和背景颜色的为“拉普拉斯像矩除”,是Lem等重要的理论成线距离Dp(x),DB(x)则定义为x到前景/背景区对应的特征向量进行聚类,从而可把图像分成多个的最小测地线距离.然后,求解式(7)得到a值区域,每个区域内的像素具有较大的相似性.文献 20在此基础上,利用谱聚类的思想,实现了谱抠像 a(x)= wF(a) (7)( Spectral matting).首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分,然后初步组合出前其中,p(x)=D(x)-P(x),r是控制边界平滑景和背景.用户也可以对图像中的区域进行标注,指程度的参数.uB(x)与此类似明前景和背景,根据这些限制信息,算法继续优化得数,可以在线性时间完成计算这个优点在算法扩展被分割成很多部分,如何进行组合是一个问题He 简单地基于前景和背景的颜色概率模型,当前景和了探讨由于拉普拉斯抠像矩阵行列数都等于像素背景色域重叠时权重计算会出现错误而且,这种数目,随着图像增大,计算量会剧增.以前的方案中基于测地线的方法,对用户指定的样本比较敏感,容般认为使得拉普拉斯矩阵越稀疏,就越能减少计易受噪声影响,出现边界估计结果不稳定的情况.此算量,即式(9)中的窗口大小|k偏向于取很小的外,方法中缺少对边界的求解,当图像实际边界较为值.而He等则指出这种直觉不一定正确,并实现了明显时可得出正确的结果,当边界模糊时则会出现种算法,在使用较大窗口的情况下,通过减少求解问题37 中的迭代次数,反而取得了更高的计算效率.另外 Levin等凹的方法中,则对抠像问题求出了闭Chen等在抠像方程中加入两个中间变量,对方合解( Closed-form solution),成为近来很多研究的程进行改写,添加像素间的平滑假设,把抠像问题转基础23一,以大小为NxN的灰度图像为例,化成二个线性规划问题,同样得到了闭合解通过假定图像中的一小块区域内,前景色F和背景点扩散函数( Point spread function,PSF)也色B保持恒定,然后对抠像方程进行改写,并定义被用于数字抠像.点扩散函数描述光学系统接收了一个二次目标函数,经过进一步的代数运算目标个点光源后,在成像区出现的区域光场图像中一些数化简成只与a相关的函数,如式(8)所示: 混合像素”(即0<α<1对应的像素)由这种现象产生,因此,PSF描述了局部区域内各像素a值 J(a=a la (8)的相互关系,可以把PSF作为先验知识进行抠像其中,L是N×N的矩阵,矩阵中元素(,j定义 Riemann等n在2008年最先提出这个方法整如下个图像的a平面,有以下定义 a=Ka° ∑(42-m(+ +σi 其中,K是PSF对应的矩阵形式,⑧是卷积运算, k(ij)∈k a是受PSF影响前的值.在2010年的国际计算机视觉与模式识别( Conference on computer vi- (Ii-HkIi-uk) (9) sion and pattern recognition,CVPR)会议论文中 Riemann等继续对PSF用于抠像的方法进行了优其中,|uk为包围像素k的窗口区域的大小,6,为化,首先用现有的抠像算法求出整个图像的a平克罗内克函数,k,G分别为mk内灰度值的均值和面,然后对a平面进行上采样( Pamplin),得到方差.然后通过最小化J(a),可得出a的值.对于更高的分辨率,接着估计出二值的a,即不透明度彩色图像,则假定像素颜色符合 Color line模型,即等于0或1.把图像根据模糊程度划分成若干区域, 在一小块区域内,前景色F或背景色B可以表示为估算每个区域对应的PSF.使用得到的PSF与ab

10 期张展鹏等: 数字抠像的最新研究进展 1575 d(x, z) = min Cx,z Z 1 0 |W · Cˆ x,z(p)|dp (5) 其中, Cx,z 是连接像素 x 与 z 之间的路径. 作为权值的 W 表征像素与前景相似度的梯度, 定义为 W = ∇PF (x) = ∇ P(x|F) P(x|F) + P(x|B) (6) 其中, P(x|F), P(x|B) 分别代表前景和背景颜色的概率分布函数. 而像素 x 到前景和背景区域的测地线距离 DF (x), DB(x) 则定义为 x 到前景/背景区的最小测地线距离. 然后, 求解式 (7) 得到 α 值. α(x) = wF (x) wF (x) + wB(x) (7) 其中, wF (x) = DF (x) −r ·PF (x), r 是控制边界平滑程度的参数. wB(x) 与此类似. 这种方法中, 测地线距离是基于权重距离的函数, 可以在线性时间完成计算. 这个优点在算法扩展到视频抠像的时候更加明显. 然而, 由于权重计算时简单地基于前景和背景的颜色概率模型, 当前景和背景色域重叠时, 权重计算会出现错误. 而且, 这种基于测地线的方法, 对用户指定的样本比较敏感, 容易受噪声影响, 出现边界估计结果不稳定的情况. 此外, 方法中缺少对边界的求解, 当图像实际边界较为明显时可得出正确的结果, 当边界模糊时则会出现问题[37] . Levin 等[16] 的方法中, 则对抠像问题求出了闭合解 (Closed-form solution), 成为近来很多研究的基础[20, 39−43] . 以大小为 N × N 的灰度图像 I 为例, 通过假定图像中的一小块区域内, 前景色 F 和背景色 B 保持恒定, 然后对抠像方程进行改写, 并定义了一个二次目标函数, 经过进一步的代数运算, 目标函数化简成只与 α 相关的函数, 如式 (8) 所示: J(α) = α TLα (8) 其中, L 是 N × N 的矩阵, 矩阵中元素 (i, j) 定义如下: X k|(i,j)∈wk Ã δij − 1 |wk| ³ 1 + 1 ² |wk| + σ 2 k × (Ii − µk)(Ij − µk) ´ ! (9) 其中, |wk| 为包围像素 k 的窗口区域的大小, δij 为克罗内克函数, µk, σ 2 k 分别为 wk 内灰度值的均值和方差. 然后通过最小化 J(α), 可得出 α 的值. 对于彩色图像, 则假定像素颜色符合 Color line 模型, 即在一小块区域内, 前景色 F 或背景色 B 可以表示为某两种颜色的线性组合, 区域内像素的 F 和 B 分布在 RGB 空间的同一直线上. 基于这个假定, 可以推导出类似上述的结果. Levin 等的这种方法通过添加一个较弱的假设, 结合巧妙的代数变换, 最终把抠像方程这个不定问题转化为确定问题, 并求出了闭合解. Closed-form matting 中推导出的矩阵 L 被称为 “拉普拉斯抠像矩阵”, 是 Levin 等重要的理论成果, 往后被广泛地引用. 取 L 的若干个最小特征值对应的特征向量进行聚类, 从而可把图像分成多个区域, 每个区域内的像素具有较大的相似性. 文献 [20] 在此基础上, 利用谱聚类的思想, 实现了谱抠像 (Spectral matting). 首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分, 然后初步组合出前景和背景. 用户也可以对图像中的区域进行标注, 指明前景和背景, 根据这些限制信息, 算法继续优化得出最终结果. 可是当图像中纹理比较复杂时, 图像将被分割成很多部分, 如何进行组合是一个问题. He 等[39] 则在计算效率方面对拉普拉斯抠像矩阵进行了探讨. 由于拉普拉斯抠像矩阵行列数都等于像素数目, 随着图像增大, 计算量会剧增. 以前的方案中, 一般认为使得拉普拉斯矩阵越稀疏, 就越能减少计算量, 即式 (9) 中的窗口大小 |wk| 偏向于取很小的值. 而 He 等则指出这种直觉不一定正确, 并实现了一种算法, 在使用较大窗口的情况下, 通过减少求解中的迭代次数, 反而取得了更高的计算效率. 另外, Chen 等[44] 在抠像方程中加入两个中间变量, 对方程进行改写, 添加像素间的平滑假设, 把抠像问题转化成一个线性规划问题, 同样得到了闭合解. 点扩散函数 (Point spread function, PSF) 也被用于数字抠像. 点扩散函数描述光学系统接收一个点光源后, 在成像区出现的区域光场. 图像中一些 “混合像素” (即 0 < α < 1 对应的像素) 由这种现象产生, 因此, PSF 描述了局部区域内各像素 α 值的相互关系, 可以把 PSF 作为先验知识进行抠像. Rhemann 等[17] 在 2008 年最先提出这个方法. 整个图像的 α 平面, 有以下定义: α = K ⊗ α s (10) 其中, K 是 PSF 对应的矩阵形式, ⊗ 是卷积运算, α s 是受 PSF 影响前的值. 在 2010 年的国际计算机视觉与模式识别 (Conference on computer vision and pattern recognition, CVPR) 会议论文中, Rhemann 等继续对 PSF 用于抠像的方法进行了优化[45] . 首先用现有的抠像算法求出整个图像的 α 平面, 然后对 α 平面进行上采样 (Upsampling), 得到更高的分辨率, 接着估计出二值的 α b , 即不透明度等于 0 或 1. 把图像根据模糊程度划分成若干区域, 估算每个区域对应的 PSF. 使用得到的 PSF 与 α b

点击进入文档下载页（PDF格式）

共14页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录