第38卷第10期 自动化学报 Vol 38. No 10 2012年10月 ACTA AUTOMATICA SINICA October 2012 数字抠像的最新研究进展 张展鹏12朱青松1谢耀钦1 摘要数字抠像是图像处理、视频编辑和电影制作中的关键技术.通过数字抠像,从图像或视频的背景中精确地分离岀前 景,是计算机视觉领域的重要问题.本文首先介绍了目前数字抠像的交互方式,然后把抠像技术分为基于颜色采样、基于像素 相似性、基于能量函数以及基于机器学习的四类技术,介绍和分析了其中的典型算法和最新研究成果,并对这些算法的测试结 果进行了定量和定性比较,最后总结了数字抠像技术目前的研究状况和未来的发展方向 关键词数字抠像,自然图像抠像,图像分割,图像处理 用格式张展鹏,朱青松,谢耀钦.数字抠像的最新研究进展.自动化学报,2012,38(10):1571-1584 DOI10.3724/SPJ.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng,- ZHU Qing-Song XIE Yao-Qin Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571-1584 数字抠像( Digital matting)是指从图像或视频的前景边缘,图像离散化过程中造成的非连续性、运 的背景中精确地分离出前景,是图像处理、视频编辑动或光照带来的模糊是形成混合像素的主要原因 和电影制作中的关键技术,已得到广泛的研究和应 对于彩色图像Ⅰ,需要为每个像素I2估计前景 用.抠像过程中,设图像Ⅰ包含N个像素,即I=色、背景色以及前景不透明度.已知该像素的颜色 I1,I2,I3…,IN},其中每个像素2的颜色C2 C2,若采用RGB颜色空间表示,则C2,F2,B 表示成其前景色F2与背景色B2的线性组合,即为三维向量,对于式(1)可得出3个方程,3个已知 C2=a2F2+(1-a2)B (1)变量和7个未知变量.显然这是不定方程,即病态 (I- posed)问题叫.因此,通常需要使用先验假设或 下文将式(1)称为抠像方程.其中a2∈[0.,1],表示用户提供的额外信息,为抠像问题增加限制条件,然 像素Ⅰ在图像中的前景不透明度.若α2=1,则该后进行求解.灰度图像与此类似 像素属于前景,若α2=0,则属于背景.若0<a2 早期研究中,通过把前景物体置于已知颜色的 <1,则该像素为前景与背景的混合,可称为“混合背景前采集图像,从而减少方程中的未知数,这种方 像素”.混合像素一般出现在半透明的物体或毛绒状法被称为“蓝屏抠像”. Smith等在1996年就提出 收稿日期2011-1008录用日期201205-10 种三角抠像法2.该方法把同一前景物体置于多 anuscnipt received octoner:201 accepted1:边012个不同的背景中,得到多幅图像,再抠选前景.因为 科学基金(81171402,30928030)资助 这些背景的颜色已知,增加了抠像问题中的己知信 Supported by National Basic Research Program of China(973息,使得抠像方程有确定的解.由于三角抠像把抠像 ga3问题转化为求解超定方程,且抠像效果良好,在目前 本文责任编委戴琼海 的研究中,常被用于生成标准的抠像结果( Ground 1.中国科学深圳先进技木研究院深51852中山大学广州 truth)1-4(如图1(d),作为算法测试和评价的依 510275 据.然而,由于蓝屏抠像需要已知且固定的背景,因 Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen Uni- 此应用范围不广 ersity, Guangzhou 510275
第 38 卷 第 10 期 自 动 化 学 报 Vol. 38, No. 10 2012 年 10 月 ACTA AUTOMATICA SINICA October, 2012 数字抠像的最新研究进展 张展鹏 1, 2 朱青松 1 谢耀钦 1 摘 要 数字抠像是图像处理、视频编辑和电影制作中的关键技术. 通过数字抠像, 从图像或视频的背景中精确地分离出前 景, 是计算机视觉领域的重要问题. 本文首先介绍了目前数字抠像的交互方式, 然后把抠像技术分为基于颜色采样、基于像素 相似性、基于能量函数以及基于机器学习的四类技术, 介绍和分析了其中的典型算法和最新研究成果, 并对这些算法的测试结 果进行了定量和定性比较, 最后总结了数字抠像技术目前的研究状况和未来的发展方向. 关键词 数字抠像, 自然图像抠像, 图像分割, 图像处理 引用格式 张展鹏, 朱青松, 谢耀钦. 数字抠像的最新研究进展. 自动化学报, 2012, 38(10): 1571−1584 DOI 10.3724/SP.J.1004.2012.01571 The Latest Research Progress on Digital Matting ZHANG Zhan-Peng1, 2 ZHU Qing-Song1 XIE Yao-Qin1 Abstract Digital matting is the key technology in image processing, video editing and film-making applications. It refers to the problem of extracting the foreground objects in the images or videos accurately, which is an important issue in the field of computer vision. In this paper, the interaction modes for digital matting are introduced firstly. After that, matting techniques are divided into four categories: color sampling based, pixel affinity based, energy function based and machine learning based. Classic algorithms and the latest research progress are presented and analyzed, followed by quantitative and qualitative evaluations of these techniques. Finally, the research progress is summarized and future research directions are suggested. Key words Digital matting, natural image matting, image segmentation, image processing Citation Zhang Zhan-Peng, Zhu Qing-Song, Xie Yao-Qin. The latest research progress on digital matting. Acta Automatica Sinica, 2012, 38(10): 1571−1584 数字抠像 (Digital matting) 是指从图像或视频 的背景中精确地分离出前景, 是图像处理、视频编辑 和电影制作中的关键技术, 已得到广泛的研究和应 用. 抠像过程中, 设图像 I 包含 N 个像素, 即 I = {I1, I2, I3, · · · , IN }, 其中每个像素 Iz 的颜色 Cz 可 表示成其前景色 Fz 与背景色 Bz 的线性组合, 即 Cz = αzFz + (1 − αz)Bz (1) 下文将式 (1) 称为抠像方程. 其中 αz ∈ [0, 1], 表示 像素 Iz 在图像中的前景不透明度. 若 αz = 1, 则该 像素属于前景, 若 αz = 0, 则属于背景. 若 0 < αz < 1, 则该像素为前景与背景的混合, 可称为 “混合 像素”. 混合像素一般出现在半透明的物体或毛绒状 收稿日期 2011-10-08 录用日期 2012-05-10 Manuscript received October 8, 2011; accepted May 10, 2012 国家重点基础研究发展计划 (973 计划) (2010CB732606), 国家自然 科学基金 (81171402, 30928030) 资助 Supported by National Basic Research Program of China (973 Program) (2010CB732606) and National Natural Science Foundation of China (81171402, 30928030) 本文责任编委 戴琼海 Recommended by Associate Editor DAI Qiong-Hai 1. 中国科学院深圳先进技术研究院 深圳 518055 2. 中山大学 广州 510275 1. Shenzhen Institutes of Advanced Technology, Chinese Academy of Sciences, Shenzhen 518055 2. Sun Yat-Sen University, Guangzhou 510275 的前景边缘, 图像离散化过程中造成的非连续性、运 动或光照带来的模糊是形成混合像素的主要原因. 对于彩色图像 I, 需要为每个像素 Iz 估计前景 色、背景色以及前景不透明度. 已知该像素的颜色 Cz, 若采用 RGB 颜色空间表示, 则 Cz, Fz, Bz 均 为三维向量, 对于式 (1) 可得出 3 个方程, 3 个已知 变量和 7 个未知变量. 显然这是不定方程, 即病态 (Ill-posed) 问题[1] . 因此, 通常需要使用先验假设或 用户提供的额外信息, 为抠像问题增加限制条件, 然 后进行求解. 灰度图像与此类似. 早期研究中, 通过把前景物体置于已知颜色的 背景前采集图像, 从而减少方程中的未知数, 这种方 法被称为 “蓝屏抠像”. Smith 等在 1996 年就提出 一种三角抠像法[2] . 该方法把同一前景物体置于多 个不同的背景中, 得到多幅图像, 再抠选前景. 因为 这些背景的颜色已知, 增加了抠像问题中的已知信 息, 使得抠像方程有确定的解. 由于三角抠像把抠像 问题转化为求解超定方程, 且抠像效果良好, 在目前 的研究中, 常被用于生成标准的抠像结果 (Ground truth)[3−4] (如图 1 (d)), 作为算法测试和评价的依 据. 然而, 由于蓝屏抠像需要已知且固定的背景, 因 此应用范围不广
1572 自动化学报 38卷 (a)原始图像 (b)三分图 (c)涂鸦方式 (d)标准结果 a) Input image (b) Trimap (d) Ground truth 图1数字抠像的交互方式 Fig 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像,即不对背景界较长或形状复杂的情况下,这种工作仍然繁琐 进行限制,面向任意的自然图像.此外,数字抠像的 扩展应用,如环境抠像、阴影抠像以及视频抠像,也1.2涂鸦方式 受到关注同.环境抠像除了精确地提取前景以外, 由于生成三分图的工作比较困难和繁琐,为了 还需要得到物体对光照的反射和折射特性使得前提高数字抠像的实用性,越来越多抠像技术采用涂 景物体在新合成的图像中也能体现这些性质间,这鸦方式1,以提供良好的用户体验。如图1(, 种技术对于透明物体的抠像特别重要.阴影抠像用户只需通过涂鸦式的操作,使用笔刷,在前景和背 把图像中的阴影部分提取出来,去除原图像的阴景的其中一小部分上做标记由于涂鸦的结果可看 影或把阴影合成到新的背景.视频抠像可看作三分图的子集,一般支持涂鸦式交互的技术也支 作数字抠像在连续图像序列的扩展,有效的物体跟持三分图.涂鸦方式下,用户的输入更为简单.然 踪10和运动分割山能简化用户的操作 而,由于只对某部分进行了标记,没有得到较为完整 由于自然图像抠像是近年的研究热点、具有实的前景和背景样本,难以对大面积的未知区域进行 用价值且应用广泛,因此下文的论述中将以自然图估算.因此,一些算法先进行图像分割,自动生成大 像抠像为重点展开,介绍数字抠像最新的研究进展.致的三分图,或者从标记的已知区域开始,迭代 同时为了内容的全面性及完整性,也会详细分析 式地对附近的像素进行估算,逐渐增大已知区域直 些经典算法 到抠像完成8.也有算法把用户的标记转化为求解 1数字抠像的交互方式 不定方程的限制条件121.还有采用迭代式的涂鸦 即根据用户的每次涂鸦操作,对结果进行改进.文献 由于数字抠像是一个病态问题,需要获得额外14中实现了一种基于涂鸦输入的交互式抠像方法, 的信息进行求解,因此,在目前的算法中,经常通过每次用户添加了新的涂鸦标记后,算法只需更新图 用户的交互,获得更多输入信息,构建约束条件.主中的部分像素而不需重新全部计算,从而提高响应 要的交互方式有三分图和涂鸦方式 速度.然而,当用户涂鸦出错想擦去时,则没有应对 11三分图 的方案,或者需要重新对全部像素进行计算.此外 由于涂鸦操作获得的初始样本较少,实际中算法不 三分图( Trimap)是指一幅大小与原图像相等定能得到有代表性的样本,而且抠像效果容易受 的图像,图像被用户划分为前景区、背景区以及未知到图像噪声的影响 区域.在这种情况下,前景/背景区为已知区域,抠像 除了三分图和涂鸦方式,也有其他的交互方式 算法需要估算未知区域像素的前景色、背景色以及比如在 GrabCutl中,用户使用一个矩形框选中图 前景不透明度.图1(b)为一幅三分图,其中背景标像中的前景部分.在很多情况下,这种方式更为直 注为黑色,前景为白色,灰色为未知区域.三分图是观.但是,由于选中的区域中也包含了部分背景,算 对原图像的粗略划分,是自然图像抠像的研究中,最法不能获得准确的前景样本,难以确定前景边界,需 开始采用的输入方式.文献阝3,12]等均采用三分图要用户进行一些边界标注.还有方法首先通过无监 作为算法的输入.然而,创建一幅三分图往往需要督的方式,根据像素间的相似性,自动地对图像进行 较多的用户操作,对于一些形状复杂的图像(如蜘蛛区域分割,然后指导用户在需要提取的区域上点击 网),创建的工作非常困难. Soft scissors中实现或做上记号,接着通过这些标记信息对各个区域进 了一种智能的描边笔刷,能够根据实时的描边情况行合并或提取,继续完成抠像20-21. 改变笔刷大小,降低边界定位的难度,然而在前景边 上述方法中,虽然用户操作的复杂性不同,但共
1572 自 动 化 学 报 38 卷 图 1 数字抠像的交互方式 Fig. 1 Interaction modes in digital matting 近年的研究集中在自然图像抠像, 即不对背景 进行限制, 面向任意的自然图像. 此外, 数字抠像的 扩展应用, 如环境抠像、阴影抠像以及视频抠像, 也 受到关注[5] . 环境抠像除了精确地提取前景以外, 还需要得到物体对光照的反射和折射特性, 使得前 景物体在新合成的图像中也能体现这些性质[6] . 这 种技术对于透明物体的抠像[7] 特别重要. 阴影抠像 是把图像中的阴影部分提取出来, 去除原图像的阴 影[8] 或把阴影合成到新的背景[9] . 视频抠像可看 作数字抠像在连续图像序列的扩展, 有效的物体跟 踪[10] 和运动分割[11] 能简化用户的操作. 由于自然图像抠像是近年的研究热点、具有实 用价值且应用广泛, 因此下文的论述中将以自然图 像抠像为重点展开, 介绍数字抠像最新的研究进展. 同时为了内容的全面性及完整性, 也会详细分析一 些经典算法. 1 数字抠像的交互方式 由于数字抠像是一个病态问题, 需要获得额外 的信息进行求解, 因此, 在目前的算法中, 经常通过 用户的交互, 获得更多输入信息, 构建约束条件. 主 要的交互方式有三分图和涂鸦方式. 1.1 三分图 三分图 (Trimap) 是指一幅大小与原图像相等 的图像, 图像被用户划分为前景区、背景区以及未知 区域. 在这种情况下, 前景/背景区为已知区域, 抠像 算法需要估算未知区域像素的前景色、背景色以及 前景不透明度. 图 1 (b) 为一幅三分图, 其中背景标 注为黑色, 前景为白色, 灰色为未知区域. 三分图是 对原图像的粗略划分, 是自然图像抠像的研究中, 最 开始采用的输入方式. 文献 [3, 12] 等均采用三分图 作为算法的输入. 然而, 创建一幅三分图往往需要 较多的用户操作, 对于一些形状复杂的图像 (如蜘蛛 网), 创建的工作非常困难. Soft scissors[13] 中实现 了一种智能的描边笔刷, 能够根据实时的描边情况 改变笔刷大小, 降低边界定位的难度, 然而在前景边 界较长或形状复杂的情况下, 这种工作仍然繁琐. 1.2 涂鸦方式 由于生成三分图的工作比较困难和繁琐, 为了 提高数字抠像的实用性, 越来越多抠像技术采用涂 鸦方式[14−16] , 以提供良好的用户体验. 如图 1 (c), 用户只需通过涂鸦式的操作, 使用笔刷, 在前景和背 景的其中一小部分上做标记. 由于涂鸦的结果可看 作三分图的子集, 一般支持涂鸦式交互的技术也支 持三分图. 涂鸦方式下, 用户的输入更为简单. 然 而, 由于只对某部分进行了标记, 没有得到较为完整 的前景和背景样本, 难以对大面积的未知区域进行 估算. 因此, 一些算法先进行图像分割, 自动生成大 致的三分图[17] , 或者从标记的已知区域开始, 迭代 式地对附近的像素进行估算, 逐渐增大已知区域直 到抠像完成[18] . 也有算法把用户的标记转化为求解 不定方程的限制条件[12,16] . 还有采用迭代式的涂鸦, 即根据用户的每次涂鸦操作, 对结果进行改进. 文献 [14] 中实现了一种基于涂鸦输入的交互式抠像方法, 每次用户添加了新的涂鸦标记后, 算法只需更新图 中的部分像素而不需重新全部计算, 从而提高响应 速度. 然而, 当用户涂鸦出错想擦去时, 则没有应对 的方案, 或者需要重新对全部像素进行计算. 此外, 由于涂鸦操作获得的初始样本较少, 实际中算法不 一定能得到有代表性的样本, 而且抠像效果容易受 到图像噪声的影响. 除了三分图和涂鸦方式, 也有其他的交互方式. 比如在 GrabCut[19] 中, 用户使用一个矩形框选中图 像中的前景部分. 在很多情况下, 这种方式更为直 观. 但是, 由于选中的区域中也包含了部分背景, 算 法不能获得准确的前景样本, 难以确定前景边界, 需 要用户进行一些边界标注. 还有方法首先通过无监 督的方式, 根据像素间的相似性, 自动地对图像进行 区域分割, 然后指导用户在需要提取的区域上点击 或做上记号, 接着通过这些标记信息对各个区域进 行合并或提取, 继续完成抠像[20−21] . 上述方法中, 虽然用户操作的复杂性不同, 但共
10期 张展鹏等:数字抠像的最新研究进展 同的特点是,用户需要对图像中的某些区域进行标文献[18]在求解P(F),P(B)时,没有使用统计模 记,指明前景区或背景区,因此属于半自动的方式.型对样本进行匹配或聚类,而仅仅基于空间距离和 而一些研究中致力于实现全自动抠像.例如,闪光算法对样本的“置信度”,进行前景/背景色的估算, ( Flash)抠像2通过对同一场景进行两次拍摄,分从而达到减少计算量的目的;文献27则分别对前 别开启和关闭闪光灯,得到两张图像作为算法的输景和背景区域使用全局的高斯混合模型( Gaussian 入.计算过程中取两张图像的差值,近似地提取出 mixture model,GMM)进行统计建模,减少采用局 被闪光的前景,然后进行自动抠像.另外,立体图像部统计带来的计算量.然而,这些方法仍未解决基于 Stereo image)23、同一场景下不同焦点平面的多颜色采样的技术中普遍存在的问题,即在前景和背 幅图像2也被作为算法输入,实现自动抠像 景颜色接近、具有相似的统计特征或者色彩模糊的 2数字抠像的主要技术 情况下,效果往往不佳.其主要原因是采集的样本只 是图像中相近的像素,这些像素不一定能够有效地 21基于颜色采样的技术 表示出未知像素的特征 普遍图像中,相近的像素在统计特征上往往具 为了提高颜色采样的效果,采样技术成为了近 有相关性可以对相近的像素进行颜色采样,根据年来数字抠像的研究热点-3.wang等在2007 样本颜色的特点对未知区域像素的抠像参数(F,B,年提出 Robust matting方案,方案中根据“信任 a)进行估算. Berman等凹2对周边确定区域像素系数”的大小判断一对前景/背景像素能否作为样 的前景/背景色进行加权,作为未知区域像素的估算本,信任系数的计算主要考虑样本与未知像素间的 结果. ruzon等阅则最先在数字抠像中引入概率统颜色空间距离.而对于候选样本集的构建,与之前 计,其基本思想是:对于未知区域的像素,先取附近的方法不同,不仅选取和未知像素相近的点,同时 已知的前景和背景像素作为样本,进行聚类和统计,沿着附近已知区域的边缘进行扩张通常,抠像中需 每个聚类使用高斯模型进行描述.然后根据样本颜要处理很多条状的未知区域(例如头发),这种方法 色的概率模型和未知区域像素的颜色,估算未知像可以取得距离更远和种类更丰富的样本,而且样本 素与前景背景中各个聚类的相似度,推导该像素的的颜色也与未知像素较为接近但有些情况下,三分 前景不透明度.2001年,Chag圜在此基础上图中的未知区域较宽,而且已知区域的边缘处,其形 提出了贝叶斯抠像( Bayesian matting.这种方法状、颜色与未知区域也不吻合,这种方法得到的样 使用贝叶斯公式,把未知像素的估算问题转化为 本并不具有代表性. Riemann等指出,测地线 个最大后验概率问题.算法已知该像素的颜色C, 距离能够反映图像中的形状信息,同一形状上的像 标是通过估计前景色F、背景色B以及a值,最大素关联度更大,因此可以用测地线距离进行辅助,建 化后验概率,如式(2)所示 立候选样本集.如图2(a)中,F和B区域分别是 三分图中指定的前景区和背景区,灰色和白色的采 arg max P(F, B, aC) 样点分别表示Wang和 Riemann的方法得到的结 BEax P(CIF, B, a)P(F)P(B)P(a) 果可以看出,灰色的点与未知像素(即图2(a)中的 P(C) 点i)分布在同一物体上,颜色特征会更接近.然而 上述两种方法都是从邻近像素出发,进行扩张的,要 (2)利用位置距离更远的像素,则需要遍历较大的空间 其中概率P()均使用高斯分布模型进行描述.其从而带来很大的计算量.2010年, Gastal等在其 中P(a)看作常数.P(C|F,B,a)使用aF-(1 Shared matting[30方案中,通过相邻像素间共享候 α)B作为高斯分布的均值.而对于P(F),P(B),在选样本来减少计算开销而且,在采集候选样本的时 未知像素附近采集前景/背景样本,分别进行聚类.候,从每个像素出发,沿四条射线向外寻找,从而扩 求出每个聚类中的均值和协方差矩阵作为高斯分布大采集范围(如图2(b),He等在201l年的最 的参数,求解F,B对应的概率.由于抠像过程中,新成果中,进一步设计了一个全局的采样方法.三分 需要对每个未知像素的样本进行聚类和统计,因此图中的所有前景F和背景B的像素组成一个大小 计算量较大.而且,算法把未知区域看成前景区与背为NF×NB的矩阵,作为候选样本的“FB搜索空 景区夹着的带状区域,抠像时,从带状区域两侧开间”.然后,把候选样本的采集看作图像像素与FB 始计算,逐步向中间部分推进,计算中会利用之前己搜索空间中样本对的匹配问题(如图2(c),匹配的 求解的像素作为样本,所以求解过程中的误差会被标准基于颜色空间距离以及像素位置距离.为了避 累积,这种现象在带状区域较宽的情况下更为明显.免对FB搜索空间的穷举,把样本的搜索算法分为 不过,这种算法已取得当时最好的效果,所以得到两步:扩张搜索与随机搜索.算法的运行过程中,交 广泛的参考和改进,是数字抠像的经典算法.例如,替地执行这两个步骤,添加符合的样本在扩张搜索
10 期 张展鹏等: 数字抠像的最新研究进展 1573 同的特点是, 用户需要对图像中的某些区域进行标 记, 指明前景区或背景区, 因此属于半自动的方式. 而一些研究中致力于实现全自动抠像. 例如, 闪光 (Flash) 抠像[22] 通过对同一场景进行两次拍摄, 分 别开启和关闭闪光灯, 得到两张图像作为算法的输 入. 计算过程中取两张图像的差值, 近似地提取出 被闪光的前景, 然后进行自动抠像. 另外, 立体图像 (Stereo image)[23]、同一场景下不同焦点平面的多 幅图像[24] 也被作为算法输入, 实现自动抠像. 2 数字抠像的主要技术 2.1 基于颜色采样的技术 普遍图像中, 相近的像素在统计特征上往往具 有相关性, 可以对相近的像素进行颜色采样, 根据 样本颜色的特点对未知区域像素的抠像参数 (F, B, α) 进行估算. Berman 等[25] 对周边确定区域像素 的前景/背景色进行加权, 作为未知区域像素的估算 结果. Ruzon 等[26] 则最先在数字抠像中引入概率统 计, 其基本思想是: 对于未知区域的像素, 先取附近 已知的前景和背景像素作为样本, 进行聚类和统计, 每个聚类使用高斯模型进行描述. 然后根据样本颜 色的概率模型和未知区域像素的颜色, 估算未知像 素与前景/背景中各个聚类的相似度, 推导该像素的 前景不透明度. 2001 年, Chuang 等[3] 在此基础上 提出了贝叶斯抠像 (Bayesian matting). 这种方法 使用贝叶斯公式, 把未知像素的估算问题转化为一 个最大后验概率问题. 算法已知该像素的颜色 C, 目 标是通过估计前景色 F、背景色 B 以及 α 值, 最大 化后验概率, 如式 (2) 所示: arg max F,B,α P(F, B, α|C) = arg max F,B,α P(C|F, B, α)P(F)P(B)P(α) P(C) (2) 其中概率 P(·) 均使用高斯分布模型进行描述. 其 中 P(α) 看作常数. P(C|F, B, α) 使用 αF − (1 − α)B 作为高斯分布的均值. 而对于 P(F), P(B), 在 未知像素附近采集前景/背景样本, 分别进行聚类. 求出每个聚类中的均值和协方差矩阵作为高斯分布 的参数, 求解 F, B 对应的概率. 由于抠像过程中, 需要对每个未知像素的样本进行聚类和统计, 因此 计算量较大. 而且, 算法把未知区域看成前景区与背 景区夹着的带状区域, 抠像时, 从带状区域两侧开 始计算, 逐步向中间部分推进, 计算中会利用之前已 求解的像素作为样本, 所以求解过程中的误差会被 累积, 这种现象在带状区域较宽的情况下更为明显. 不过, 这种算法已取得当时最好的效果, 所以得到 广泛的参考和改进, 是数字抠像的经典算法. 例如, 文献 [18] 在求解 P(F), P(B) 时, 没有使用统计模 型对样本进行匹配或聚类, 而仅仅基于空间距离和 算法对样本的 “置信度”, 进行前景/背景色的估算, 从而达到减少计算量的目的; 文献 [27] 则分别对前 景和背景区域使用全局的高斯混合模型 (Gaussian mixture model, GMM) 进行统计建模, 减少采用局 部统计带来的计算量. 然而, 这些方法仍未解决基于 颜色采样的技术中普遍存在的问题, 即在前景和背 景颜色接近、具有相似的统计特征或者色彩模糊的 情况下, 效果往往不佳. 其主要原因是采集的样本只 是图像中相近的像素, 这些像素不一定能够有效地 表示出未知像素的特征. 为了提高颜色采样的效果, 采样技术成为了近 年来数字抠像的研究热点[28−31]. Wang 等在 2007 年提出 Robust matting[28] 方案, 方案中根据 “信任 系数” 的大小判断一对前景/背景像素能否作为样 本. 信任系数的计算主要考虑样本与未知像素间的 颜色空间距离. 而对于候选样本集的构建, 与之前 的方法不同, 不仅选取和未知像素相近的点, 同时 沿着附近已知区域的边缘进行扩张. 通常, 抠像中需 要处理很多条状的未知区域 (例如头发), 这种方法 可以取得距离更远和种类更丰富的样本, 而且样本 的颜色也与未知像素较为接近. 但有些情况下, 三分 图中的未知区域较宽, 而且已知区域的边缘处, 其形 状、颜色与未知区域也不吻合, 这种方法得到的样 本并不具有代表性. Rhemann 等[29] 指出, 测地线 距离能够反映图像中的形状信息, 同一形状上的像 素关联度更大, 因此可以用测地线距离进行辅助, 建 立候选样本集. 如图 2 (a) 中, F 和 B 区域分别是 三分图中指定的前景区和背景区, 灰色和白色的采 样点分别表示 Wang 和 Rhemann 的方法得到的结 果. 可以看出, 灰色的点与未知像素 (即图 2 (a) 中的 点 i) 分布在同一物体上, 颜色特征会更接近. 然而, 上述两种方法都是从邻近像素出发, 进行扩张的, 要 利用位置距离更远的像素, 则需要遍历较大的空间, 从而带来很大的计算量. 2010 年, Gastal 等在其 Shared matting[30] 方案中, 通过相邻像素间共享候 选样本来减少计算开销. 而且, 在采集候选样本的时 候, 从每个像素出发, 沿四条射线向外寻找, 从而扩 大采集范围 (如图 2 (b)). He 等[31] 在 2011 年的最 新成果中, 进一步设计了一个全局的采样方法. 三分 图中的所有前景 F 和背景 B 的像素组成一个大小 为 NF × NB 的矩阵, 作为候选样本的 “F B 搜索空 间”. 然后, 把候选样本的采集看作图像像素与 F B 搜索空间中样本对的匹配问题 (如图 2 (c)), 匹配的 标准基于颜色空间距离以及像素位置距离. 为了避 免对 F B 搜索空间的穷举, 把样本的搜索算法分为 两步: 扩张搜索与随机搜索. 算法的运行过程中, 交 替地执行这两个步骤, 添加符合的样本: 在扩张搜索
1574 自动化学报 38卷 中,根据邻近像素相似,考虑当前最佳样本的邻近节邻像素间的前景/背景色平滑过渡12、具有相同的 点;在随机搜索中,则考虑一定范围内随机选定的样模糊连接度( Fuzzy connectedness91.与颜色采样 本对.由于采用了全局的采样方法,可以有效避免合的技术相比,所用的邻近像素较少,可以充分利用邻 适样本的丢失,同时,使用扩张搜索和随机搜索相结近像素的相关性,减少由于颜色采样中样本选取不 合的方式,避免了穷举搜索带来的巨大计算量 当导致的错误.而且基于邻近像素的相似性,可以促 使求解出的前景不透明度在像素间平滑过渡,减少 颜色采样技术中可能产生的不连续问题,有利于提 高视觉效果. 这类技术中最典型的是泊松抠像12,由Sun等 在2004年国际图形学会议( SIGGRAPH)论文中 提出.该算法把抠像问题转化成求解关于a梯度的 泊松方程.首先对抠像方程的左右两边求偏导,得 a)文献[29]中的采样方法 (b)文献[30]中的采样方法 (b) Sampling method of [30] VC=(F-BVa+aVF+(1-a)VB 3) 前景样本(F 其中,V=(品,).算法中假设图像中的前景色和 背景色平滑过渡,因此aⅤF+(1-a)VB相对较 小,可以忽略.a值的梯度Vo约等于C.然后利 用三分图中的区域划分,已知区域边缘像素的a值 定为0或1,从而确定了狄里克雷边界条件,可以求 解对应的泊松方程(如式(4),得到α值. (c)文献[31]中的采样方法 (c)Sampling method of [31] F-B 图2抠像中的多种采样方法29-31 Fgs2 Various sampling methods in image matting中,△=(品+)为拉普拉斯算子,dv表示 相应的研究.Lim等2使用感知颜色空间替换RGB化F,B的取值以使得a的变化足够小由于F,B 颜色空间进行建模,把透明度的计算细分为亮度和的初始值从最近的点选取,而且迭代过程中没有有 色度透明度的计算,提高计算的精确度.Ch0等效的信息对F,B进行优化,只是基于图像“平滑过 的方法则关注未知像素和附近样本颜色间的关系.渡”的假设,因此,在一些颜色复杂的图像中,这不 基于二次贝塞尔( Bezier)曲线,引入了一个自适应能取得好的结果.为此,Sum等也提出了局部泊松抠 的颜色曲线模型,对局部区域中各像素的颜色进行像,即通过用户对局部区域的操作,为全局抠像中忽 描述.通过计算未知像素的颜色在曲线中的位置,得略的部分进行赋值,加入到计算中,在一些背景较复 出抠像参数 杂的图片中取得了比贝叶斯抠像更好的结果.然而 中,抠像结果的质量差异很大叫在三分图被仔细时间较长、Dn等对此进行了改进,提出使用 果.在纹理或色彩复杂的情况下,样本选取不当会对也作为抠像算法的输入同时,把原来基于散度的泊 抠像结果产生不良的影响.为了提高采样统计的有松方程(式(4)改写成基于特征值的方程,使得方 效性,近年来研究学者做了各种努力.然而,由于目程求解中更好地体现图像细节.通过这些方法,用户 前候选样本的采用标准只考虑位置和颜色距离,仍 只需提供初始的三分图而不需进行进一步的调整操 然不能避免一些原本相关性不大的样本获得较高的作,提高了抠像效率 信任系数,特别是在一些颜色模糊的区域 由于测地线距离可以反映图像中物体的形 状信息,基于测地线的抠像方法近几年也受到关 22基于像素相似性的技术 注B,37-38.Bai等倒提出基于测地线的抠像框架 基于像素相似性的技术假设在某种距离(例如其基本思想是使用像素间的测地线距离,结合前景 位置距离、颜色空间距离)下,邻近的像素具有相似和背景的颜色概率分布,求出未知像素与前景的相 的属性或符合一定的规律12.1434-36,例如,假设相似度,从而得出a值.像素间的测地线距离定义为
1574 自 动 化 学 报 38 卷 中, 根据邻近像素相似, 考虑当前最佳样本的邻近节 点; 在随机搜索中, 则考虑一定范围内随机选定的样 本对. 由于采用了全局的采样方法, 可以有效避免合 适样本的丢失, 同时, 使用扩张搜索和随机搜索相结 合的方式, 避免了穷举搜索带来的巨大计算量. 图 2 抠像中的多种采样方法[29−31] Fig. 2 Various sampling methods in image matting[29−31] 除了前景/背景的采样技术, 颜色模型方面也有 相应的研究. Lin 等[32] 使用感知颜色空间替换 RGB 颜色空间进行建模, 把透明度的计算细分为亮度和 色度透明度的计算, 提高计算的精确度. Cho 等[33] 的方法则关注未知像素和附近样本颜色间的关系. 基于二次贝塞尔 (Bezier) 曲线, 引入了一个自适应 的颜色曲线模型, 对局部区域中各像素的颜色进行 描述. 通过计算未知像素的颜色在曲线中的位置, 得 出抠像参数. 总体来说, 基于颜色采样的技术, 在不同的图像 中, 抠像结果的质量差异很大[1] . 在三分图被仔细 定义、前景/背景对比明显的情况下会取得良好的效 果. 在纹理或色彩复杂的情况下, 样本选取不当会对 抠像结果产生不良的影响. 为了提高采样统计的有 效性, 近年来研究学者做了各种努力. 然而, 由于目 前候选样本的采用标准只考虑位置和颜色距离, 仍 然不能避免一些原本相关性不大的样本获得较高的 信任系数, 特别是在一些颜色模糊的区域. 2.2 基于像素相似性的技术 基于像素相似性的技术假设在某种距离 (例如 位置距离、颜色空间距离) 下, 邻近的像素具有相似 的属性或符合一定的规律[12,14,34−35] , 例如, 假设相 邻像素间的前景/背景色平滑过渡[12]、具有相同的 模糊连接度 (Fuzzy connectedness)[14] . 与颜色采样 的技术相比, 所用的邻近像素较少, 可以充分利用邻 近像素的相关性, 减少由于颜色采样中样本选取不 当导致的错误. 而且基于邻近像素的相似性, 可以促 使求解出的前景不透明度在像素间平滑过渡, 减少 颜色采样技术中可能产生的不连续问题, 有利于提 高视觉效果. 这类技术中最典型的是泊松抠像[12] , 由 Sun 等 在 2004 年国际图形学会议 (SIGGRAPH) 论文中 提出. 该算法把抠像问题转化成求解关于 α 梯度的 泊松方程. 首先对抠像方程的左右两边求偏导, 得: ∇C = (F − B)∇α + α∇F + (1 − α)∇B (3) 其中, ∇ = ( ∂ ∂x , ∂ ∂y ). 算法中假设图像中的前景色和 背景色平滑过渡, 因此 α∇F + (1 − α)∇B 相对较 小, 可以忽略. α 值的梯度 ∇α 约等于 ∇C F −B . 然后利 用三分图中的区域划分, 已知区域边缘像素的 α 值 定为 0 或 1, 从而确定了狄里克雷边界条件, 可以求 解对应的泊松方程 (如式 (4)), 得到 α 值. ∆α = div µ ∇C F − B ¶ (4) 其中, ∆ = ( ∂ 2 ∂x2 + ∂ 2 ∂y2 ) 为拉普拉斯算子, div 表示 散度. 接着, 使用迭代的方法进行求解, 即不断地优 化 F, B 的取值以使得 α 的变化足够小. 由于 F, B 的初始值从最近的点选取, 而且迭代过程中没有有 效的信息对 F, B 进行优化, 只是基于图像 “平滑过 渡” 的假设, 因此, 在一些颜色复杂的图像中, 这不 能取得好的结果. 为此, Sun 等也提出了局部泊松抠 像, 即通过用户对局部区域的操作, 为全局抠像中忽 略的部分进行赋值, 加入到计算中, 在一些背景较复 杂的图片中取得了比贝叶斯抠像更好的结果. 然而, 局部泊松抠像需要较多的用户交互, 整个抠像过程 时间较长. Du 等[36] 对此进行了改进, 提出使用一 系列的滤波操作提取图像的细微特征, 把这些特征 也作为抠像算法的输入. 同时, 把原来基于散度的泊 松方程 (式 (4)) 改写成基于特征值的方程, 使得方 程求解中更好地体现图像细节. 通过这些方法, 用户 只需提供初始的三分图而不需进行进一步的调整操 作, 提高了抠像效率. 由于测地线距离可以反映图像中物体的形 状信息, 基于测地线的抠像方法近几年也受到关 注[34, 37−38]. Bai 等[34] 提出基于测地线的抠像框架. 其基本思想是使用像素间的测地线距离, 结合前景 和背景的颜色概率分布, 求出未知像素与前景的相 似度, 从而得出 α 值. 像素间的测地线距离定义为
10期 张展鹏等:数字抠像的最新研究进展 1575 d(x,2)=min/w.Cp)(5)某两种颜色的线性组合,区域内像素的F和B分布 在RGB空间的同一直线上.基于这个假定,可以推 其中,Cx:是连接像素x与z之间的路径.作为权导出类似上述的结果 Levin等的这种方法通过添加 值的W表征像素与前景相似度的梯度,定义为 个较弱的假设,结合巧妙的代数变换,最终把抠像 方程这个不定问题转化为确定问题,并求出了闭合 W=VPF()=V P(|F) 解. P(a F)+ P(B) Closed- form matting中推导出的矩阵L被称 其中,P(叫F),P(叫B)分别代表前景和背景颜色的为“拉普拉斯像矩除”,是Lem等重要的理论成 线距离Dp(x),DB(x)则定义为x到前景/背景区对应的特征向量进行聚类,从而可把图像分成多个 的最小测地线距离.然后,求解式(7)得到a值 区域,每个区域内的像素具有较大的相似性.文献 20在此基础上,利用谱聚类的思想,实现了谱抠像 a(x)= wF(a) (7)( Spectral matting).首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分,然后初步组合出前 其中,p(x)=D(x)-P(x),r是控制边界平滑景和背景.用户也可以对图像中的区域进行标注,指 程度的参数.uB(x)与此类似 明前景和背景,根据这些限制信息,算法继续优化得 数,可以在线性时间完成计算这个优点在算法扩展被分割成很多部分,如何进行组合是一个问题He 简单地基于前景和背景的颜色概率模型,当前景和了探讨由于拉普拉斯抠像矩阵行列数都等于像素 背景色域重叠时权重计算会出现错误而且,这种数目,随着图像增大,计算量会剧增.以前的方案中 基于测地线的方法,对用户指定的样本比较敏感,容 般认为使得拉普拉斯矩阵越稀疏,就越能减少计 易受噪声影响,出现边界估计结果不稳定的情况.此算量,即式(9)中的窗口大小|k偏向于取很小的 外,方法中缺少对边界的求解,当图像实际边界较为值.而He等则指出这种直觉不一定正确,并实现了 明显时可得出正确的结果,当边界模糊时则会出现 种算法,在使用较大窗口的情况下,通过减少求解 问题37 中的迭代次数,反而取得了更高的计算效率.另外 Levin等凹的方法中,则对抠像问题求出了闭Chen等在抠像方程中加入两个中间变量,对方 合解( Closed-form solution),成为近来很多研究的程进行改写,添加像素间的平滑假设,把抠像问题转 基础23一,以大小为NxN的灰度图像为例,化成二个线性规划问题,同样得到了闭合解 通过假定图像中的一小块区域内,前景色F和背景 点扩散函数( Point spread function,PSF)也 色B保持恒定,然后对抠像方程进行改写,并定义被用于数字抠像.点扩散函数描述光学系统接收 了一个二次目标函数,经过进一步的代数运算目标个点光源后,在成像区出现的区域光场图像中一些 数化简成只与a相关的函数,如式(8)所示: 混合像素”(即0<α<1对应的像素)由这种现 象产生,因此,PSF描述了局部区域内各像素a值 J(a=a la (8)的相互关系,可以把PSF作为先验知识进行抠像 其中,L是N×N的矩阵,矩阵中元素(,j定义 Riemann等n在2008年最先提出这个方法整 如下 个图像的a平面,有以下定义 a=Ka° ∑(42-m(+ +σi 其中,K是PSF对应的矩阵形式,⑧是卷积运算, k(ij)∈k a是受PSF影响前的值.在2010年的国际计算 机视觉与模式识别( Conference on computer vi- (Ii-HkIi-uk) (9) sion and pattern recognition,CVPR)会议论文中 Riemann等继续对PSF用于抠像的方法进行了优 其中,|uk为包围像素k的窗口区域的大小,6,为化,首先用现有的抠像算法求出整个图像的a平 克罗内克函数,k,G分别为mk内灰度值的均值和面,然后对a平面进行上采样( Pamplin),得到 方差.然后通过最小化J(a),可得出a的值.对于更高的分辨率,接着估计出二值的a,即不透明度 彩色图像,则假定像素颜色符合 Color line模型,即等于0或1.把图像根据模糊程度划分成若干区域, 在一小块区域内,前景色F或背景色B可以表示为估算每个区域对应的PSF.使用得到的PSF与ab
10 期 张展鹏等: 数字抠像的最新研究进展 1575 d(x, z) = min Cx,z Z 1 0 |W · Cˆ x,z(p)|dp (5) 其中, Cx,z 是连接像素 x 与 z 之间的路径. 作为权 值的 W 表征像素与前景相似度的梯度, 定义为 W = ∇PF (x) = ∇ P(x|F) P(x|F) + P(x|B) (6) 其中, P(x|F), P(x|B) 分别代表前景和背景颜色的 概率分布函数. 而像素 x 到前景和背景区域的测地 线距离 DF (x), DB(x) 则定义为 x 到前景/背景区 的最小测地线距离. 然后, 求解式 (7) 得到 α 值. α(x) = wF (x) wF (x) + wB(x) (7) 其中, wF (x) = DF (x) −r ·PF (x), r 是控制边界平滑 程度的参数. wB(x) 与此类似. 这种方法中, 测地线距离是基于权重距离的函 数, 可以在线性时间完成计算. 这个优点在算法扩展 到视频抠像的时候更加明显. 然而, 由于权重计算时 简单地基于前景和背景的颜色概率模型, 当前景和 背景色域重叠时, 权重计算会出现错误. 而且, 这种 基于测地线的方法, 对用户指定的样本比较敏感, 容 易受噪声影响, 出现边界估计结果不稳定的情况. 此 外, 方法中缺少对边界的求解, 当图像实际边界较为 明显时可得出正确的结果, 当边界模糊时则会出现 问题[37] . Levin 等[16] 的方法中, 则对抠像问题求出了闭 合解 (Closed-form solution), 成为近来很多研究的 基础[20, 39−43] . 以大小为 N × N 的灰度图像 I 为例, 通过假定图像中的一小块区域内, 前景色 F 和背景 色 B 保持恒定, 然后对抠像方程进行改写, 并定义 了一个二次目标函数, 经过进一步的代数运算, 目标 函数化简成只与 α 相关的函数, 如式 (8) 所示: J(α) = α TLα (8) 其中, L 是 N × N 的矩阵, 矩阵中元素 (i, j) 定义 如下: X k|(i,j)∈wk à δij − 1 |wk| ³ 1 + 1 ² |wk| + σ 2 k × (Ii − µk)(Ij − µk) ´ ! (9) 其中, |wk| 为包围像素 k 的窗口区域的大小, δij 为 克罗内克函数, µk, σ 2 k 分别为 wk 内灰度值的均值和 方差. 然后通过最小化 J(α), 可得出 α 的值. 对于 彩色图像, 则假定像素颜色符合 Color line 模型, 即 在一小块区域内, 前景色 F 或背景色 B 可以表示为 某两种颜色的线性组合, 区域内像素的 F 和 B 分布 在 RGB 空间的同一直线上. 基于这个假定, 可以推 导出类似上述的结果. Levin 等的这种方法通过添加 一个较弱的假设, 结合巧妙的代数变换, 最终把抠像 方程这个不定问题转化为确定问题, 并求出了闭合 解. Closed-form matting 中推导出的矩阵 L 被称 为 “拉普拉斯抠像矩阵”, 是 Levin 等重要的理论成 果, 往后被广泛地引用. 取 L 的若干个最小特征值 对应的特征向量进行聚类, 从而可把图像分成多个 区域, 每个区域内的像素具有较大的相似性. 文献 [20] 在此基础上, 利用谱聚类的思想, 实现了谱抠像 (Spectral matting). 首先使用拉普拉斯抠像矩阵, 无监督地对图像进行区域划分, 然后初步组合出前 景和背景. 用户也可以对图像中的区域进行标注, 指 明前景和背景, 根据这些限制信息, 算法继续优化得 出最终结果. 可是当图像中纹理比较复杂时, 图像将 被分割成很多部分, 如何进行组合是一个问题. He 等[39] 则在计算效率方面对拉普拉斯抠像矩阵进行 了探讨. 由于拉普拉斯抠像矩阵行列数都等于像素 数目, 随着图像增大, 计算量会剧增. 以前的方案中, 一般认为使得拉普拉斯矩阵越稀疏, 就越能减少计 算量, 即式 (9) 中的窗口大小 |wk| 偏向于取很小的 值. 而 He 等则指出这种直觉不一定正确, 并实现了 一种算法, 在使用较大窗口的情况下, 通过减少求解 中的迭代次数, 反而取得了更高的计算效率. 另外, Chen 等[44] 在抠像方程中加入两个中间变量, 对方 程进行改写, 添加像素间的平滑假设, 把抠像问题转 化成一个线性规划问题, 同样得到了闭合解. 点扩散函数 (Point spread function, PSF) 也 被用于数字抠像. 点扩散函数描述光学系统接收一 个点光源后, 在成像区出现的区域光场. 图像中一些 “混合像素” (即 0 < α < 1 对应的像素) 由这种现 象产生, 因此, PSF 描述了局部区域内各像素 α 值 的相互关系, 可以把 PSF 作为先验知识进行抠像. Rhemann 等[17] 在 2008 年最先提出这个方法. 整 个图像的 α 平面, 有以下定义: α = K ⊗ α s (10) 其中, K 是 PSF 对应的矩阵形式, ⊗ 是卷积运算, α s 是受 PSF 影响前的值. 在 2010 年的国际计算 机视觉与模式识别 (Conference on computer vision and pattern recognition, CVPR) 会议论文中, Rhemann 等继续对 PSF 用于抠像的方法进行了优 化[45] . 首先用现有的抠像算法求出整个图像的 α 平 面, 然后对 α 平面进行上采样 (Upsampling), 得到 更高的分辨率, 接着估计出二值的 α b , 即不透明度 等于 0 或 1. 把图像根据模糊程度划分成若干区域, 估算每个区域对应的 PSF. 使用得到的 PSF 与 α b