第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992tis.202101003 基于语义分割的简洁线条肖像画生成方法 吴涛2,董肖莉3,孟伟2,徐健,覃鸿,李卫军 (1.北京林业大学信息学院,北京100083:2.国家林业草原林业智能信息处理工程技术研究中心,北京100083: 3.中国科学院半导体研究所,北京100083:4.中国科学院大学微电子学院,北京100045) 摘要:针对目前主流的线条提取算法对于区域对比度不明显的边缘的检测能力较弱,且对于所有区域采用无 差别、统一化的处理策略,所生成的线条画往往较复杂,非常不利于机器人机械臂绘图的问题,本文提出了一种 基于语义分割的简洁线条肖像画生成方法(concise line portrait generation based on semantic segmentation,CLPG-SS)。 首先,对人脸图像进行语义分割.将人脸划分为不同的区域,基于不同区域提取边缘轮廓与五官细节线条,进 行边缘切向流优化,从而加强方向信息:在此基础上,利用线条图来生成调和图像,并利用优化后的边缘切向 流、人脸语义分割结果以及调和图像,针对不同的分割区域调整线条提取方法的参数.实现对细节无关区域的 线条过滤和细节重点区域的线条加强,生成简洁线条肖像画。实验结果表明:本文提出的CLPG-S$方法能够 有效提取人脸主轮廓线条,并针对不同区域实现了对细节线条的针对性调节,提高了机器人机械臂的绘制效率。 关键词:语义分割;区域轮廓;切向流场:简洁线条肖像画;人脸线条提取;基于流的高斯差分;参数调整 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)01-0134-08 中文引用格式:吴涛,董肖莉,孟伟,等.基于语义分割的简洁线条肖像画生成方法.智能系统学报,2021,16(1):134-141. 英文引用格式:WU Tao,.DONG Xiaoli,,MENG Wei,etal.Concise line portrait generation method based on semantic segmenta tionJ.CAAI transactions on intelligent systems,2021,16(1):134-141. Concise line portrait generation method based on semantic segmentation WU Tao2,DONG Xiaoli,MENG Wei2,XU Jian',QIN Hong3,LI Weijun3 (1.School of Information Science and Technology,Beijing Forestry University,Beijing 100083,China;2.Engineering Research Center for Forestry-oriented Intelligent Information Processing of National Forestry and Grassland Administration,Beijing 100083, China;3.Institute of Semiconductors,Chinese Academy of Sciences,Beijing 100083,China;4.School of Microelectronics,Uni- versity of Chinese Academy of Sciences,Beijing 100045,China) Abstract:Currently,mainstream line extraction algorithms have weak detection capabilities for edges with inconspicu- ous regional contrast,and they use an undifferentiated and unified processing strategy for all regions.The generated line drawings are often complex,which is very unfavorable for robot manipulator drawing.Given this situation,this paper proposes a concise line portrait generation based on the semantic segmentation(CLPG-SS)method.In this method,se- mantic segmentation is performed on the face image,and the face is divided into different regions.Edge contour and fa- cial detail lines are extracted based on different regions,and edge tangent flow is optimized to enhance the direction in- formation.On this basis,the line image is used to generate the harmonic image,and the optimized edge tangent flow,fa- cial semantic segmentation results,and harmonic image are used to adjust the parameters of the line extraction method for different segmentation regions to realize the line filtering of the detail independent region and line enhancement of the detail focus region,generating a concise line portrait.The experimental results showed that the proposed CLPG-SS method could effectively extract the main contour lines of a human face,adjust the detail lines for different regions,and improve the rendering efficiency of a robot manipulator. Keywords:semantic segmentation:region contour;edge tangent flow;concise line portrait;face line extraction;fdog; parameter adjustment 线条肖像画,是描绘人物形象的一种绘画方 画具有非常悠久的历史,发展至今仍十分流行, 式,是一种独具风格的艺术表现形式。线条肖像 世界各国的艺术家经常举办相关艺术展,甚至在 收稿日期:2021-01-14. 公园、广场等场所也常会遇到正在进行线条肖像 通信作者:孟伟.E-mail:mnancy(@bjfu.edu.cn 画创作的街头艺术家。众所周知,线条肖像画以
DOI: 10.11992/tis.202101003 基于语义分割的简洁线条肖像画生成方法 吴涛1,2,董肖莉3 ,孟伟1,2,徐健3 ,覃鸿3,4,李卫军3,4 (1. 北京林业大学 信息学院,北京 100083; 2. 国家林业草原林业智能信息处理工程技术研究中心,北京 100083; 3. 中国科学院 半导体研究所, 北京 100083; 4. 中国科学院大学 微电子学院,北京 100045) 摘 要:针对目前主流的线条提取算法对于区域对比度不明显的边缘的检测能力较弱,且对于所有区域采用无 差别、统一化的处理策略,所生成的线条画往往较复杂,非常不利于机器人机械臂绘图的问题,本文提出了一种 基于语义分割的简洁线条肖像画生成方法 (concise line portrait generation based on semantic segmentation, CLPG-SS)。 首先,对人脸图像进行语义分割,将人脸划分为不同的区域,基于不同区域提取边缘轮廓与五官细节线条,进 行边缘切向流优化,从而加强方向信息;在此基础上,利用线条图来生成调和图像,并利用优化后的边缘切向 流、人脸语义分割结果以及调和图像,针对不同的分割区域调整线条提取方法的参数,实现对细节无关区域的 线条过滤和细节重点区域的线条加强,生成简洁线条肖像画。实验结果表明:本文提出的 CLPG-SS 方法能够 有效提取人脸主轮廓线条,并针对不同区域实现了对细节线条的针对性调节,提高了机器人机械臂的绘制效率。 关键词:语义分割;区域轮廓; 切向流场;简洁线条肖像画;人脸线条提取;基于流的高斯差分;参数调整 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0134−08 中文引用格式:吴涛, 董肖莉, 孟伟, 等. 基于语义分割的简洁线条肖像画生成方法 [J]. 智能系统学报, 2021, 16(1): 134–141. 英文引用格式:WU Tao, DONG Xiaoli, MENG Wei, et al. Concise line portrait generation method based on semantic segmentation[J]. CAAI transactions on intelligent systems, 2021, 16(1): 134–141. Concise line portrait generation method based on semantic segmentation WU Tao1,2 ,DONG Xiaoli3 ,MENG Wei1,2 ,XU Jian3 ,QIN Hong3,4 ,LI Weijun3,4 (1. School of Information Science and Technology, Beijing Forestry University, Beijing 100083, China; 2. Engineering Research Center for Forestry-oriented Intelligent Information Processing of National Forestry and Grassland Administration, Beijing 100083, China; 3. Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China; 4. School of Microelectronics, University of Chinese Academy of Sciences, Beijing 100045, China) Abstract: Currently, mainstream line extraction algorithms have weak detection capabilities for edges with inconspicuous regional contrast, and they use an undifferentiated and unified processing strategy for all regions. The generated line drawings are often complex, which is very unfavorable for robot manipulator drawing. Given this situation, this paper proposes a concise line portrait generation based on the semantic segmentation (CLPG-SS) method. In this method, semantic segmentation is performed on the face image, and the face is divided into different regions. Edge contour and facial detail lines are extracted based on different regions, and edge tangent flow is optimized to enhance the direction information. On this basis, the line image is used to generate the harmonic image, and the optimized edge tangent flow, facial semantic segmentation results, and harmonic image are used to adjust the parameters of the line extraction method for different segmentation regions to realize the line filtering of the detail independent region and line enhancement of the detail focus region, generating a concise line portrait. The experimental results showed that the proposed CLPG-SS method could effectively extract the main contour lines of a human face, adjust the detail lines for different regions, and improve the rendering efficiency of a robot manipulator. Keywords: semantic segmentation; region contour; edge tangent flow; concise line portrait; face line extraction; fdog; parameter adjustment 线条肖像画,是描绘人物形象的一种绘画方 式,是一种独具风格的艺术表现形式。线条肖像 画具有非常悠久的历史,发展至今仍十分流行, 世界各国的艺术家经常举办相关艺术展,甚至在 公园、广场等场所也常会遇到正在进行线条肖像 画创作的街头艺术家。众所周知,线条肖像画以 收稿日期:2021−01−14. 通信作者:孟伟. E-mail:mnancy@bjfu.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
第1期 吴涛,等:基于语义分割的简洁线条肖像画生成方法 ·135· 线条的形式真实、生动地体现人物特征,其创作 取却难以适用。与FDoG构建切向流场的方式不 需要很高的专业能力和艺术功底,是一项具有创 同,Kyprianidis等提出用结构张量构建图像的 意性、专业性且精细化程度高、极耗时、耗力的艺 切向流场,这种方法容易实现但是对噪声比较敏 术活动,如何使用计算机来代替人类绘画成为一 感。Winnemoller等提出的XDoG算法通过微 个热点问题。随着计算机视觉及人工智能技术 调可以形成多种不同风格的效果。此外,随着深 的蓬勃发展,各行各业都涌现出了多种多样的智 度学习技术的发展,基于神经网络的线条生成方法 能机器人以满足不同的需求,而艺术创作一直被 也应运而生6,但这些方法多为黑盒系统,难以 视为机器人智能的重要表现。因而,探索面向 有针对性地进行参数量化调整,因此无法实现对 机器艺术的线条肖像画艺术创作方法已成为人工 线条的调控,应用效果受限。 智能与艺术融合的研究热点,如何提取凸显人物 综合上述分析,目前主流的线条提取算法往 特征的线条并简洁展现成为创作的关键。 往生成复杂的线条以保持可辨识的人脸特征,且 当前,线条提取方法通常基于边缘检测算法, 对不同区域线条提取的精细程度采用统一调整的 通过设计各种边缘检测算子,检测灰度图像的一 方式,使得线条肖像画总体线条较复杂、机器人机 阶微分和二阶微分的响应来获取边缘,从而生成 械臂绘图时间较长。鉴于此,本文提出了一种基于 线条肖像画图像,如:一阶微分检测边缘的滤波 语义分割的简洁线条肖像画生成方法,利用语义 算子Sobel、交叉梯度Roberts算子,二阶微分拉普 分割技术,将人脸图像划分为不同区域,进而利用 拉斯算子(laplace operator)、Marr-Hildreth算子、 不同区域之间的边缘,得到人脸主轮廓线条和五 DoG算子(difference-.of-gaussians,DoG)等。 官区域线条,以优化边缘切向流场:进一步,采用 Canny!1检测算法由于计算简单、边缘定位准确, 不同的参数配置,分区域进行线条生成,实现对 在边缘检测领域广泛使用。Laplacian算子基于检 细节无关区域的线条简化和细节重点区域的线条 测二阶微分来检测边缘,Marr-Hildreth算子是一 加强,最终达到肖像线条总体简洁、个性化特征 种经过高斯平滑的拉普拉斯变换。Gooch等利 可辨识、有效缩短机器人机械臂绘制时间的目标。 用2个高斯滤波核的差(difference-of-gaussians, 1相关技术 DoG)来近似表示Marr-Hildreth算子,大大节省 了计算量,并取得了较好的线条提取效果。但由 1.1 人脸语义分割 于DoG滤波的核是各项同性的,不能很好地考虑 图像语义分割是图像处理领域的一个热点问 图像自身边缘的流向性,因而往往会出现一些杂 题,目的是理解图像的语义信息,按照图像中的 乱的短线条干扰线条特征的表达。针对这一问 语义分析进行分割,本文利用语义分割按照人脸 题,Kang等I6提出了基于流的高斯差分(flow- 图像中内容的不同,将人脸图像划分为不同区 based difference of gaussian,FDoG)算法,使用基于 域,为后续的分区域图像处理奠定基础。图像语 流的各向异性滤波器替代传统边缘检测算子,有 义分割的方法可以分为2种,一种是基于区域分 效减少了线条的断裂现象,提高了线条的连贯性 类的图像语义分割方法,另一种是基于深度学习 与平滑性,同时抑制了噪声。然而,这种方法仍 的像素级图像语义分割方法。在基于深度学习的 具有一定的局限性,如对颜色不同但亮度近似的 像素级图像语义分割方法中,DeepLab系列 2个灰度域的边界提取效果并不理想。为此,很 ADDIN EN.CITE.DATAU7-20取得了公认的效果, 多专家学者基于FDoG算法进行了大量优化改进 该系列的主要特点是采用空洞卷积来代替传统卷 的尝试。Wang等m在FDoG的基础上提出了一 积,在没有增加参数的情况下,增大了感受野。其 种梯度引导方法,实现了对亮度相近颜色不同区 中DeepLabV3+采用了编码解码的结构,在解码阶 域的边缘检测。王山东等s-1基于FDoG算法提 段使用了编码阶段的信息来优化目标的细节。 出了基于特征流的抽象线条画绘制方法,将高斯 本文采用DeepLabV3+来构建人脸语义分割模型, 一阶导滤波结果和高斯差分滤波结果进行混合作 对人脸图像的不同区域进行划分,从而实现针对 为边缘检测的微分响应,所生成的线条图像对线 性的图像处理操作,生成简洁线条肖像画。 条位置的检测更为准确,但其线条却十分复杂。 1.2FDoG方法 柳有权等提出了一种建筑线条生成方法,检测 FDoG是一种各项异性边缘检测滤波器,可 建筑物的直线并强化直线的切向流,以突出建筑 以根据图像自身的一些局部方向特征改变滤波的 物的线条特征,但这种面向具有规则几何结构的 过程,相比于各项同性滤波器能够检测到具有一 线条生成方法对于人脸这类不规则图像的线条提 致性的线条。FDoG算法主要包括2个过程:
线条的形式真实、生动地体现人物特征,其创作 需要很高的专业能力和艺术功底,是一项具有创 意性、专业性且精细化程度高、极耗时、耗力的艺 术活动,如何使用计算机来代替人类绘画成为一 个热点问题[1]。随着计算机视觉及人工智能技术 的蓬勃发展,各行各业都涌现出了多种多样的智 能机器人以满足不同的需求,而艺术创作一直被 视为机器人智能的重要表现[2]。因而,探索面向 机器艺术的线条肖像画艺术创作方法已成为人工 智能与艺术融合的研究热点,如何提取凸显人物 特征的线条并简洁展现成为创作的关键。 当前,线条提取方法通常基于边缘检测算法, 通过设计各种边缘检测算子,检测灰度图像的一 阶微分和二阶微分的响应来获取边缘,从而生成 线条肖像画图像,如:一阶微分检测边缘的滤波 算子 Sobel、交叉梯度 Roberts 算子,二阶微分拉普 拉斯算子 (laplace operator)、Marr-Hildreth 算子、 DoG 算子(difference-of-gaussians, DoG)等。 Canny[3] 检测算法由于计算简单、边缘定位准确, 在边缘检测领域广泛使用。Laplacian 算子基于检 测二阶微分来检测边缘,Marr-Hildreth 算子是一 种经过高斯平滑的拉普拉斯变换。Gooch 等 [4] 利 用 2 个高斯滤波核的差 (difference-of-gaussians, DoG) 来近似表示 Marr-Hildreth 算子[5] ,大大节省 了计算量,并取得了较好的线条提取效果。但由 于 DoG 滤波的核是各项同性的,不能很好地考虑 图像自身边缘的流向性,因而往往会出现一些杂 乱的短线条干扰线条特征的表达。针对这一问 题 ,Kang 等 [6] 提出了基于流的高斯差分 (flowbased difference of gaussian,FDoG) 算法,使用基于 流的各向异性滤波器替代传统边缘检测算子,有 效减少了线条的断裂现象,提高了线条的连贯性 与平滑性,同时抑制了噪声。然而,这种方法仍 具有一定的局限性,如对颜色不同但亮度近似的 2 个灰度域的边界提取效果并不理想。为此,很 多专家学者基于 FDoG 算法进行了大量优化改进 的尝试。Wang 等 [7] 在 FDoG 的基础上提出了一 种梯度引导方法,实现了对亮度相近颜色不同区 域的边缘检测。王山东等[8-9] 基于 FDoG 算法提 出了基于特征流的抽象线条画绘制方法,将高斯 一阶导滤波结果和高斯差分滤波结果进行混合作 为边缘检测的微分响应,所生成的线条图像对线 条位置的检测更为准确,但其线条却十分复杂。 柳有权等[10] 提出了一种建筑线条生成方法,检测 建筑物的直线并强化直线的切向流,以突出建筑 物的线条特征,但这种面向具有规则几何结构的 线条生成方法对于人脸这类不规则图像的线条提 取却难以适用。与 FDoG 构建切向流场的方式不 同,Kyprianidis 等 [11] 提出用结构张量构建图像的 切向流场,这种方法容易实现但是对噪声比较敏 感。Winnemöller 等 [12] 提出的 XDoG 算法通过微 调可以形成多种不同风格的效果。此外,随着深 度学习技术的发展,基于神经网络的线条生成方法 也应运而生[13-16] ,但这些方法多为黑盒系统,难以 有针对性地进行参数量化调整,因此无法实现对 线条的调控,应用效果受限。 综合上述分析,目前主流的线条提取算法往 往生成复杂的线条以保持可辨识的人脸特征,且 对不同区域线条提取的精细程度采用统一调整的 方式,使得线条肖像画总体线条较复杂、机器人机 械臂绘图时间较长。鉴于此,本文提出了一种基于 语义分割的简洁线条肖像画生成方法,利用语义 分割技术,将人脸图像划分为不同区域,进而利用 不同区域之间的边缘,得到人脸主轮廓线条和五 官区域线条,以优化边缘切向流场;进一步,采用 不同的参数配置,分区域进行线条生成,实现对 细节无关区域的线条简化和细节重点区域的线条 加强,最终达到肖像线条总体简洁、个性化特征 可辨识、有效缩短机器人机械臂绘制时间的目标。 1 相关技术 1.1 人脸语义分割 图像语义分割是图像处理领域的一个热点问 题,目的是理解图像的语义信息,按照图像中的 语义分析进行分割,本文利用语义分割按照人脸 图像中内容的不同,将人脸图像划分为不同区 域,为后续的分区域图像处理奠定基础。图像语 义分割的方法可以分为 2 种,一种是基于区域分 类的图像语义分割方法,另一种是基于深度学习 的像素级图像语义分割方法。在基于深度学习的 像素级图像语义分割方法中, DeepLa b 系 列 ADDIN EN.CITE.DATA[17-20] 取得了公认的效果, 该系列的主要特点是采用空洞卷积来代替传统卷 积,在没有增加参数的情况下,增大了感受野。其 中 DeepLabV3+采用了编码解码的结构,在解码阶 段使用了编码阶段的信息来优化目标的细节。 本文采用 DeepLabV3+来构建人脸语义分割模型, 对人脸图像的不同区域进行划分,从而实现针对 性的图像处理操作,生成简洁线条肖像画。 1.2 FDoG 方法 FDoG 是一种各项异性边缘检测滤波器,可 以根据图像自身的一些局部方向特征改变滤波的 过程,相比于各项同性滤波器能够检测到具有一 致性的线条。FDoG 算法主要包括 2 个过程: 第 1 期 吴涛,等:基于语义分割的简洁线条肖像画生成方法 ·135·
·136· 智能系统学报 第16卷 1)构造图像边缘切向流场。边缘切向流 数,是本文关注的重点。 (edge tangent flow,ETF)是垂直于梯度、表示局部 边缘流曲线的正切向量,用(x)来表示,其中x为 图像上的像素坐标点。为了得到图像的高质量线 条,利用与邻域y的空间位置权重、幅值权重和方 向权重信息,逐步迭代构建切向流,如式(1)所示: r产6国=2xr产oe,xa.cex)0 (a)切向流(b)滤波核 (©)滤波核放大图 YESGT) 式中:tw表示下一次切向流场;tr表示当前切向 图1基于ETF的高斯差分卷积 Fig.1 Flow-based DoG convolution 流场;k为邻域大小;表示x的邻域;ω、ωm、w 分别代表空间位置、幅值和方向的权重;中表示邻 2生成方法 域y与x的方向是否相近。 2)基于ET℉的高斯差分滤波线条提取。基 本文在人脸语义分割基础上,提出了简洁线 于切向流场进行滤波核卷积以提取线条,如图1 条肖像画生成方法(concise line portrait generation 所示。首先,设置高斯差分卷积核沿着曲线1,从 based on semantic segmentation,CLPG-SS),,总体框 -T~T检测边缘;然后,在检测到的边缘上利用另 架如图2所示。首先,在对人脸图像预处理后,对 一个高斯核沿着弧线c.从-S~S的方向进行积 其进行人脸语义分割,得到不同的人脸区域;然 分,聚集检测到的点以得到最终的连贯线条,如 后,针对分割得到的头发、面部、颈部、五官等区 式(2)、(3)所示: 域,利用FDoG方法提取得到区域边缘轮廓及五 F(s)=(G (t)-pG,(t))I (l,(t))dt (2) 官细节线条;在此基础上,进行ET℉优化,从而加 强轮廓线条和五官细节对应位置的方向;最后, 将预处理后的人脸图像与线条提取结果进行融 H(x)=G (s)F(s)ds (3) 合,并利用优化后的ET℉与语义分割结果,针对 式中:F表示检测到的边缘点;H表示线条;II,() 不同的分割区域调整FDoG参数,以实现对细节 表示输入图像1在1,()处的值;G。是方差为σ的 无关区域的线条过滤和细节重点区域的线条加 一维高斯函数;P、σe、σ、σm为影响线条效果的参 强,得到简洁线条肖像画。 4 两和图像 语义分割结果 线条提取结果 构建 ETF 基于分 ETF 区域参数的 FDoG 优化 线条生成 发、自面 区域轮廓线条 颈部区域 图像预处理 语义分割 人脸检测 11种类别 今 切向流 简洁线条 肖像可 特征点定位 人脸归一化预处理后的 绘图区域 人脸图像 面部子图 五官细节线条 原始图像 裁剪 脸语义区 图2基于语义分割的简洁线条肖像画生成方法(CLPG-S⑤总体架构 Fig.2 The overall architecture of Concise line portrait generation method based on semantic segmentation(CLPG-SS) 2.1人脸图像预处理 2.2人脸语义分割 本文人脸图像预处理主要包括人脸检测、特 五官反映了一个人有别于他人的主要特征, 征点定位、人脸归一化、绘图区域裁剪等。其中, 能表现容貌、表情、年龄等,是人脸特征中最为传 人脸归一化操作包括人脸图像的旋转、缩放,以 神、最具辨识性的特征。因此,本文的思路是尽 使不同人脸图像保持在同一尺度下。 可能提取并保留完整线条来展现五官特征。同
t(x) x y 1 ) 构造图像边缘切向流场。边缘切向 流 (edge tangent flow, ETF) 是垂直于梯度、表示局部 边缘流曲线的正切向量,用 来表示,其中 为 图像上的像素坐标点。为了得到图像的高质量线 条,利用与邻域 的空间位置权重、幅值权重和方 向权重信息,逐步迭代构建切向流,如式 (1) 所示: t new (x) = 1 k ∑ y∈Ω(x) ϕ(x, y)t cur (y)ωs (x, y)ωm (x, y)ωd (x, y) (1) t new t cur k Ω x ωs ωm ωd ϕ y x 式中: 表示下一次切向流场; 表示当前切向 流场; 为邻域大小; 表示 的邻域; 、 、 分别代表空间位置、幅值和方向的权重; 表示邻 域 与 的方向是否相近。 ls −T T cx −S S 2) 基于 ETF 的高斯差分滤波线条提取。基 于切向流场进行滤波核卷积以提取线条,如图 1 所示。首先,设置高斯差分卷积核沿着曲线 从 ~ 检测边缘;然后,在检测到的边缘上利用另 一个高斯核沿着弧线 从 ~ 的方向进行积 分,聚集检测到的点以得到最终的连贯线条,如 式 (2)、(3) 所示: F (s) = wT −T ( Gσc (t)−ρGσs (t) ) I(ls (t))dt (2) H (x) = ws −s Gσm (s)F (s)ds (3) F H I(ls(t)) I ls(t) Gσ σ ρ σc σs σm 式中: 表示检测到的边缘点; 表示线条; 表示输入图像 在 处的值; 是方差为 的 一维高斯函数; 、 、 、 为影响线条效果的参 数,是本文关注的重点。 x x Cx t (x) −T −S −T −T S ls T Cx x T T (a) 切向流 (b) 滤波核 (c) 滤波核放大图 图 1 基于 ETF 的高斯差分卷积 Fig. 1 Flow-based DoG convolution 2 生成方法 本文在人脸语义分割基础上,提出了简洁线 条肖像画生成方法 (concise line portrait generation based on semantic segmentation, CLPG-SS),总体框 架如图 2 所示。首先,在对人脸图像预处理后,对 其进行人脸语义分割,得到不同的人脸区域;然 后,针对分割得到的头发、面部、颈部、五官等区 域,利用 FDoG 方法提取得到区域边缘轮廓及五 官细节线条;在此基础上,进行 ETF 优化,从而加 强轮廓线条和五官细节对应位置的方向;最后, 将预处理后的人脸图像与线条提取结果进行融 合,并利用优化后的 ETF 与语义分割结果,针对 不同的分割区域调整 FDoG 参数,以实现对细节 无关区域的线条过滤和细节重点区域的线条加 强,得到简洁线条肖像画。 面部子图 人脸语义区域 区域轮廓线条 五官细节线条 切向流 简洁线条 肖像画 调和图像 语义分割结果 线条提取结果 构建 ETF 图像预处理 原始图像 语义分割 FDoG ETF 优化 人脸检测 特征点定位 人脸归一化 绘图区域 裁剪 …… 预处理后的 人脸图像 11 种类别 头发、面部、 颈部区域 基于分 区域参数的 线条生成 图 2 基于语义分割的简洁线条肖像画生成方法 (CLPG-SS) 总体架构 Fig. 2 The overall architecture of Concise line portrait generation method based on semantic segmentation ( CLPG-SS) 2.1 人脸图像预处理 本文人脸图像预处理主要包括人脸检测、特 征点定位、人脸归一化、绘图区域裁剪等。其中, 人脸归一化操作包括人脸图像的旋转、缩放,以 使不同人脸图像保持在同一尺度下。 2.2 人脸语义分割 五官反映了一个人有别于他人的主要特征, 能表现容貌、表情、年龄等,是人脸特征中最为传 神、最具辨识性的特征。因此,本文的思路是尽 可能提取并保留完整线条来展现五官特征。同 ·136· 智 能 系 统 学 报 第 16 卷
第1期 吴涛,等:基于语义分割的简洁线条肖像画生成方法 ·137· 时,轮廓线条也可以一定程度展现人脸的特征, 式中:ETFoutine表示头发、面部和颈部区域边缘轮 如人脸的轮廓可以反映脸型、胖瘦等,头发的轮 廓的切向流场;ETFd表示五官细节线条的切向 廓能反映发型、长短等。因此,本文将人脸与头 流场;少,是ETFo与ETF之和;n代表衰减 发的轮廓线条也作为主要特征。而人脸的其他区 率,刀越大受邻域的影响越大,本文设置为1。 域,如发丝、颈部等则与人脸的特征相关性不高, 2.3.3图像调和 故本文将这些区域归为细节无关区域,尽可能做 本文以预处理后的人脸图像和提取的线条为 线条简化处理,以降低线条肖像画的复杂度,提 基础进行图像调和,如式(⑤)所示。 高机器人机械臂绘制的效率。 I(x,y)=1.(x,y)Ioumine (x,y)/255letaa(x,y)/255 (5) 鉴于此,本文针对上述不同区域的处理需求, 式中:Toutine表示头发、面部和颈部区域的边缘轮 采用DeepLabV3+语义分割技术,基于Cele- 廓;Iuau表示五官细节线条;outline、Iseail与预处理 bAMask-HQ人脸语义分割数据集,构建人脸语义 人脸图像的灰度图I。相乘后得到调和图像Im。 分割模型,实现对人脸不同区域的分割。为了降 2.3.4基于分区域参数的线条生成 低模型学习的复杂度并提高人脸分割的准确率, 采用调和图像1m代替式(2)中的1,沿着优化 本文对CelebAMask-HQ人脸语义分割数据集的 后的切向流进行卷积,生成简洁线条肖像画。如 人脸区域划分方式进行了优化,将左右眉毛、左 1.2节所述,P、e、o、~m是影响线条效果的4个 右眼睛、左右耳朵分别归为一类,确定了11种类 核心参数。本文通过大量实验分析,总结了上述 别,即:头发、面部、颈部、眉毛、眼睛、鼻子、上嘴 参数对线条肖像画生成效果的影响,如表1所示。 唇、下嘴唇、口腔、耳朵、背景。 表1FDoG核心参数对线条肖像画生成效果的影响 为了提高模型的鲁棒性与泛化能力,本文在 Table 1 The influence of FDoG's core parameters on the 人脸语义分割模型训练过程中,对人脸图像及其 effect of line portrait 语义标注图像做了数据增强处理,包括对比度调 参数取值范围 含义 影响说明 整、亮度调整、颜色变化、添加不同噪声、添加不 反映线条 值越小,细节越少,检出线条 同程度模糊、不同程度旋转、不同尺度缩放、替换 [0.90-11 的细节敏 变少:值越接近1,细节越 多样化背景等,以适应在实际应用过程中环境差 感程度 多,噪声也相应增加 异、姿态差异等情况。 反映线条 值越大,提取的线条越宽:值 [0.3-3] 2.3线条肖像画生成 的宽度 越小,提取的线条越细 2.31线条提取 值越小,线条连贯性越差,细 反映线条的 针对人脸语义分割得到的头发、面部、颈部 [1-] 小线条越多;值越大,线条连 连贯程度 五官等区域,基于FDoG方法,分别设置2组不同 贯性越好,细小线条越少 的参数,分别实现头发、面部和颈部区域的边缘 注:,与σ.同步变化,0,=1.60。 轮廓及五官细节线条的提取。 在此基础上,提出分区域参数设置策略,如 2.3.2ETF优化 表2所示。 在用FDoG进行线条提取时,常因不同区域 肤色相近、光照变化等情况导致出现线条提取不 表2分区域参数设置策略 Table 2 Regional parameter setting strategy 完整或五官细节不显著等问题,补充或加强边缘 设置策略 轮廓或细节线条的方向将对改善上述问题起到积 区域 p 极作用。为此,本文提出ET℉优化方法,引入单 Ce 调递增函数ω,(x,y)作为新的权重来加强切向流, 头发 [0.96,0.99] 1 6 当邻域y的切向流幅值大于x的切向流幅值时, 面部 0.90 0.75 该权重系数增大,可在一定程度上加强边缘方向 颈部 0.96 6 性。改进后的ETF计算为 眉眼 0.994 0.75 1.3 w)=∑xr"0)ω,(c,x 其他五官 0.99 3 (4) 具体说明如下: wm(x,y)wd(x,y)w(x,y) 1)头发区域:最大程度去除细节线条、保留 r(x.y)=(1+tanh() 主轮廓线条,且尽可能保持主轮廓线条的连贯 =ETFoutline+ETFdetail 性。考虑到性别、装饰等因素影响,头发区域可
时,轮廓线条也可以一定程度展现人脸的特征, 如人脸的轮廓可以反映脸型、胖瘦等,头发的轮 廓能反映发型、长短等。因此,本文将人脸与头 发的轮廓线条也作为主要特征。而人脸的其他区 域,如发丝、颈部等则与人脸的特征相关性不高, 故本文将这些区域归为细节无关区域,尽可能做 线条简化处理,以降低线条肖像画的复杂度,提 高机器人机械臂绘制的效率。 鉴于此,本文针对上述不同区域的处理需求, 采用 DeepLabV3+语义分割技术,基于 CelebAMask-HQ 人脸语义分割数据集,构建人脸语义 分割模型,实现对人脸不同区域的分割。为了降 低模型学习的复杂度并提高人脸分割的准确率, 本文对 CelebAMask-HQ 人脸语义分割数据集的 人脸区域划分方式进行了优化,将左右眉毛、左 右眼睛、左右耳朵分别归为一类,确定了 11 种类 别,即:头发、面部、颈部、眉毛、眼睛、鼻子、上嘴 唇、下嘴唇、口腔、耳朵、背景。 为了提高模型的鲁棒性与泛化能力,本文在 人脸语义分割模型训练过程中,对人脸图像及其 语义标注图像做了数据增强处理,包括对比度调 整、亮度调整、颜色变化、添加不同噪声、添加不 同程度模糊、不同程度旋转、不同尺度缩放、替换 多样化背景等,以适应在实际应用过程中环境差 异、姿态差异等情况。 2.3 线条肖像画生成 2.3.1 线条提取 针对人脸语义分割得到的头发、面部、颈部、 五官等区域,基于 FDoG 方法,分别设置 2 组不同 的参数,分别实现头发、面部和颈部区域的边缘 轮廓及五官细节线条的提取。 2.3.2 ETF 优化 ωl(x, y) y x 在用 FDoG 进行线条提取时,常因不同区域 肤色相近、光照变化等情况导致出现线条提取不 完整或五官细节不显著等问题,补充或加强边缘 轮廓或细节线条的方向将对改善上述问题起到积 极作用。为此,本文提出 ETF 优化方法,引入单 调递增函数 作为新的权重来加强切向流, 当邻域 的切向流幅值大于 的切向流幅值时, 该权重系数增大,可在一定程度上加强边缘方向 性。改进后的 ETF 计算为 t new (x) = 1 k ∑ y∈Ω(x) ϕ(x, y)t cur (y)ωs (x, y)× ωm (x, y)ωd (x, y)ωl(x, y) (4) ωl(x, y) = 1 2 ( 1+tanh[ η(ψl(y)−ψl(x))]) ψl = ETFoutline +ETFdetail ETFoutline ETFdetail ψl ETFoutline ETFdetail η η 式中: 表示头发、面部和颈部区域边缘轮 廓的切向流场; 表示五官细节线条的切向 流场; 是 与 之和; 代表衰减 率, 越大受邻域的影响越大,本文设置为 1。 2.3.3 图像调和 本文以预处理后的人脸图像和提取的线条为 基础进行图像调和,如式 (5) 所示。 Im (x, y) = Io (x, y)Ioutline (x, y) /255Idetail(x, y) /255 (5) Ioutline Idetail Ioutline Idetail Io Im 式中: 表示头发、面部和颈部区域的边缘轮 廓; 表示五官细节线条; 、 与预处理 人脸图像的灰度图 相乘后得到调和图像 。 2.3.4 基于分区域参数的线条生成 Im I ρ σc σs σm 采用调和图像 代替式 (2) 中的 ,沿着优化 后的切向流进行卷积,生成简洁线条肖像画。如 1.2 节所述, 、 、 、 是影响线条效果的 4 个 核心参数。本文通过大量实验分析,总结了上述 参数对线条肖像画生成效果的影响,如表 1 所示。 表 1 FDoG 核心参数对线条肖像画生成效果的影响 Table 1 The influence of FDoG’s core parameters on the effect of line portrait 参数 取值范围 含义 影响说明 ρ [0.90~1] 反映线条 的细节敏 感程度 值越小,细节越少,检出线条 变少;值越接近1,细节越 多,噪声也相应增加 σc [0.3~3] 反映线条 的宽度 值越大,提取的线条越宽;值 越小,提取的线条越细 σm [1~9] 反映线条的 连贯程度 值越小,线条连贯性越差,细 小线条越多;值越大,线条连 贯性越好,细小线条越少 注:σs 与 σc 同步变化,σs= 1.6σc。 在此基础上,提出分区域参数设置策略,如 表 2 所示。 表 2 分区域参数设置策略 Table 2 Regional parameter setting strategy 区域 设置策略 ρ σc σm 头发 [0.96, 0.99] 1 6 面部 0.90 0.75 4 颈部 0.96 1 6 眉眼 0.994 0.75 1.3 其他五官 0.99 1 3 具体说明如下: 1) 头发区域:最大程度去除细节线条、保留 主轮廓线条,且尽可能保持主轮廓线条的连贯 性。考虑到性别、装饰等因素影响,头发区域可 第 1 期 吴涛,等:基于语义分割的简洁线条肖像画生成方法 ·137·
·138· 智能系统学报 第16卷 能略有差异,因此设置ρ在区间内取值; 比上述2种方法所取得的效果,本文提出的CLPG-SS 2)面部区域:最大程度保留轮廓线条,减少 方法具有较强优势。从图4中可以看出,CLPG- 面部噪声; SS方法明显检测到了Canny和FDoG无法检测到 3)颈部区域:尽可能保持轮廓线条的连贯性: 的下巴线条,且强化了人脸五官的细节,线条更 4)眉眼区域:主要包括眉毛、眼睛,由于最为 加流畅、五官层次感更强。此外,CLPG-SS方法 传神的特征体现在眉眼中,因此在线条生成时,要 加强了头发的主轮廓,精简了头发区域的线条细 尽可能保留细节,以体现出不同人的个性化特征: 节,非常有利于提高机械臂的绘制效率。 5)其他五官区域:主要包括鼻子、上嘴唇、下 嘴唇、口腔、耳朵,考虑到机器人机械臂快速绘制 的需求,仅保留大致轮廓即可; 6)背景区域:将背景区域直接置为白色以去 除背景的影响,因此无需再对背景进行参数设置。 3实验及结果分析 (a)区域语义分割图 (b)loutline 3.1实验设计 实验设备:包括图像采集装置、四轴机械臂 和计算机(CPU:Intel Core is54590,内存:8GB) 实验数据:采用CelebAMask-HQ人脸语义分 割数据集,包含30000张人脸图像。其中,随机 (c)面部子图 (d)leal 选取27000张作为训练集,用于构建人脸语义分 割模型;剩余3000张作为测试集,用于生成简洁 图3轮廓和五官图 线条肖像画。 Fig.3 Outline and facial features details pictures 对比方法:Canny算法、FDoG方法。 3.2实验结果及分析 3.2.1线条提取结果 针对预处理后人脸图像的线条提取结果如 图3所示。针对图3(a)的头发、面部、颈部语义分 割区域,提取边缘轮廓,设置FDoG参数为σc=0.6, σm=3,p=0.99,得到边缘轮廓1uie如图3(b)所 示;针对图3(c)的面部子图,提取五官细节线条, 设置FDoG参数为σ=0.75,m=1.3,p=0.994,得 到五官细节线条Iu如图3(d)所示。由图3可 见,通过上述方法得到了人脸图像头发、面部、颈 部的边缘线条和五官细节线条。 3.2.2线条肖像画生成结果 基于CLPG-SS的线条肖像画生成结果及与 Canny算法、FDoG方法的比较,针对头发区域大 小及性别,随机选取4幅图像进行展示,如图4所 (a)原图 (b)Canny (c)FDoG (d)CLPG-SS 示,五官部分局部放大如图5所示。可以看出, 图4线条肖像画生成结果比较 Canny边缘检测算法所生成的线条宽度一致,无 Fig.4 Comparison of line portrait generation results 轻重之分,而且对人脸五官等较为重要的线条并 进一步,本文考察了FDoG中不同参数对线条 未很好地检出,不利于人脸特征的表达,缺少层 肖像画生成的影响,如图6所示。图6(a)中,可 次感,总体线条效果较为凌乱,无法辨识。FDoG 以观察到提取的线条较细,凸显了人脸中的细节 算法虽然能够很好地保持人脸局部特征,但是对 特征,但总体线条较为杂乱,且线条轮廓提取并 于一些视觉上具有明显界限而颜色对比度上没有 不完整;图6(b)所提取线条的强度得到增强,但 太大区别的边界,并不能很好地提取线条,如图4 主轮廓仍不完整;图6(c)中,线条完整性得到提 中的下巴位置,未能检测到该处的轮廓线条。相 高,如提取到了下巴处的轮廓,但同时噪声也得到
能略有差异,因此设置 ρ 在区间内取值; 2) 面部区域:最大程度保留轮廓线条,减少 面部噪声; 3) 颈部区域:尽可能保持轮廓线条的连贯性; 4) 眉眼区域:主要包括眉毛、眼睛,由于最为 传神的特征体现在眉眼中,因此在线条生成时,要 尽可能保留细节,以体现出不同人的个性化特征; 5) 其他五官区域:主要包括鼻子、上嘴唇、下 嘴唇、口腔、耳朵,考虑到机器人机械臂快速绘制 的需求,仅保留大致轮廓即可; 6) 背景区域:将背景区域直接置为白色以去 除背景的影响,因此无需再对背景进行参数设置。 3 实验及结果分析 3.1 实验设计 实验设备:包括图像采集装置、四轴机械臂 和计算机 (CPU:Intel Core i5 4 590,内存:8 GB)。 实验数据:采用 CelebAMask-HQ 人脸语义分 割数据集,包含 30 000 张人脸图像。其中,随机 选取 27 000 张作为训练集,用于构建人脸语义分 割模型;剩余 3 000 张作为测试集,用于生成简洁 线条肖像画。 对比方法:Canny 算法、FDoG 方法。 3.2 实验结果及分析 3.2.1 线条提取结果 σc = 0.6 σm = 3 ρ = 0.99 Ioutline σc = 0.75 σm = 1.3 ρ = 0.994 Idetail 针对预处理后人脸图像的线条提取结果如 图 3 所示。针对图 3(a) 的头发、面部、颈部语义分 割区域,提取边缘轮廓,设置 FDoG 参数为 , , ,得到边缘轮廓 如图 3(b) 所 示;针对图 3(c) 的面部子图,提取五官细节线条, 设置 FDoG 参数为 , , ,得 到五官细节线条 如图 3(d) 所示。由图 3 可 见,通过上述方法得到了人脸图像头发、面部、颈 部的边缘线条和五官细节线条。 3.2.2 线条肖像画生成结果 基于 CLPG-SS 的线条肖像画生成结果及与 Canny 算法、FDoG 方法的比较,针对头发区域大 小及性别,随机选取 4 幅图像进行展示,如图 4 所 示,五官部分局部放大如图 5 所示。可以看出, Canny 边缘检测算法所生成的线条宽度一致,无 轻重之分,而且对人脸五官等较为重要的线条并 未很好地检出,不利于人脸特征的表达,缺少层 次感,总体线条效果较为凌乱,无法辨识。FDoG 算法虽然能够很好地保持人脸局部特征,但是对 于一些视觉上具有明显界限而颜色对比度上没有 太大区别的边界,并不能很好地提取线条,如图 4 中的下巴位置,未能检测到该处的轮廓线条。相 比上述 2 种方法所取得的效果,本文提出的 CLPG-SS 方法具有较强优势。从图 4 中可以看出,CLPGSS 方法明显检测到了 Canny 和 FDoG 无法检测到 的下巴线条,且强化了人脸五官的细节,线条更 加流畅、五官层次感更强。此外,CLPG-SS 方法 加强了头发的主轮廓,精简了头发区域的线条细 节,非常有利于提高机械臂的绘制效率。 (a) 区域语义分割图 (b) Ioutline (c) 面部子图 (d) Idetail 图 3 轮廓和五官图 Fig. 3 Outline and facial features details pictures (a) 原图 (b) Canny (c) FDoG (d) CLPG-SS 图 4 线条肖像画生成结果比较 Fig. 4 Comparison of line portrait generation results 进一步,本文考察了 FDoG 中不同参数对线条 肖像画生成的影响,如图 6 所示。图 6(a) 中, 可 以观察到提取的线条较细,凸显了人脸中的细节 特征,但总体线条较为杂乱,且线条轮廓提取并 不完整;图 6(b) 所提取线条的强度得到增强,但 主轮廓仍不完整;图 6(c) 中,线条完整性得到提 高,如提取到了下巴处的轮廓,但同时噪声也得到 ·138· 智 能 系 统 学 报 第 16 卷