白志程等:自然场景文本检测技术研究综述 1437 分类器被进一步集成为强分类器,在Adaboost算 特征信号进行分析,选取重合度高的文本候选框. 法框架下,该方法在提出时取得了具有竞争力的 在此基础上,使用基于像素点采样的Monte-Carlo 文本检测性能.此外,文献[23]率先将纹理特征用 方法快速计算多边形区域,最后使用顺序协议进 于自然场景文本检测.文献[24]进一步扩充了文 行回归,实现对多边形文本的精准预测.该文提出 献[23]中的特征提取方法,提取了6种特征并分 的多边形滑窗更加契合场景中的不规则文字(如 别构建分类器,大幅度的改善了检测性能.文献25] 图3所示),大幅度提升了召回率.由于该方法采 首次提出采用多边形滑动窗口进行文本检测,该 用了卷积特征,因此也可被看作基于深度学习的 方法设计了四边形滑动窗口,在中间卷积层中对 方法 图3多边形滑动窗口和矩形滑动窗口检测结果比较(a)多边形滑窗检测结果:(b)矩形滑窗检测结果 Fig.3 Comparison of the detection results between polygon sliding windows and rectangular sliding windows(a)detection results of polygon sliding window,(b)detection result of rectangular sliding window 2.3比较与分析 测方法中,多采用“人工特征子特征提取”和“分类 基于连通域的方法采用自底向上的策略检测 器预测”两个步骤,受到人工特征子特征表示能力 文本,先检测得到单个文本,然后将相邻文本进行 的制约.深度神经网络具有在数据中自动学习特 关联形成文本行.这种方法利用笔化宽度的一致 征表示的能力,而稠密的特征向量形式有效避免 性和颜色的一致性等启发式规则构建文本候选 了稀疏特征向量可能造成的“维数灾难”,极大推 区,即进行文本粗检测,然后利用分类器进一步过 动了机器学习技术的发展. 滤背景像素.基于连通域的算法的一方面降低了 目前己经出现了大量的基于深度学习的自然 计算的复杂度,另一方面由于检测到的连通域可 场景文本检测方法,并取得了优于经典文本检测 以对文本直接进行分割,这有利于后续文本的识 方法的效果一般而言,基于深度学习的自然场 别.然而基于连通域的算法常常面临着三个问题: 景文本检测方法多采用2种深度学习图像处理策 第一,由于该算法对噪声的包容性差,因此非常容 略:1)目标检测算法中的“区域建议”的策略:2)图 易形成不正确的连通域:第二,在利用启发式规则 像语义分割策略,多数方法在这两种策略中有 过滤连通域和文本行的噪声因素时,在不同的数 所侧重,也有很多方法既采用了基于区域建议的 据集上的检测结果具有较大差异性:第三,启发式 思想回归边界框,又用到了图像分割策略学习像 滤除规则并不能百分百有效地区分文本区域与背 素级的语义信息.因此,本文分别介绍了基于区域 景,从而造成误检 建议的方法和基于分割的方法,同时在后文的“混 基于滑动检测窗的方法通过“检测窗”界定文 合方法”一节中对综合采用两种策略的方法进行 本框,因此无需像基于连通域的方法一样通过文 分析 本边缘、角点的提取来获取候选区域,可以有效避 3.1基于区域建议的方法 免粘连字符对候选区域提取的影响,该类方法的 3.1.1基本思想 主要缺陷在于对滑窗依赖极大,而窗口形状、大 该类方法以通用目标检测网络为基本模型, 小、滑窗步长设置较为困难,通用性较差 并在其基础上结合文本检测的实际应用对算法进 行改良,如将通用的多类目标检测模型调整为单 3基于深度学习的自然场景文本检测方法 类(文本)检测模型.以常见目标检测模型Faster 深度学习文本检测方法是一种特殊的基于学 R-CNN(Faster region-based convolutional network)27 习的文本检测方法.在经典的基于学习的文本检 为例,其基本流程为:1)CNN图片特征提取;2)候
分类器被进一步集成为强分类器,在 Adaboost 算 法框架下,该方法在提出时取得了具有竞争力的 文本检测性能. 此外,文献 [23] 率先将纹理特征用 于自然场景文本检测. 文献 [24] 进一步扩充了文 献 [23] 中的特征提取方法,提取了 6 种特征并分 别构建分类器,大幅度的改善了检测性能. 文献 [25] 首次提出采用多边形滑动窗口进行文本检测,该 方法设计了四边形滑动窗口,在中间卷积层中对 特征信号进行分析,选取重合度高的文本候选框. 在此基础上,使用基于像素点采样的 Monte-Carlo 方法快速计算多边形区域,最后使用顺序协议进 行回归,实现对多边形文本的精准预测. 该文提出 的多边形滑窗更加契合场景中的不规则文字(如 图 3 所示),大幅度提升了召回率. 由于该方法采 用了卷积特征,因此也可被看作基于深度学习的 方法. (a) (b) 图 3 多边形滑动窗口和矩形滑动窗口检测结果比较[25] . (a)多边形滑窗检测结果;(b)矩形滑窗检测结果 Fig.3 Comparison of the detection results between polygon sliding windows and rectangular sliding windows[25] : (a) detection results of polygon sliding window; (b) detection result of rectangular sliding window 2.3 比较与分析 基于连通域的方法采用自底向上的策略检测 文本,先检测得到单个文本,然后将相邻文本进行 关联形成文本行. 这种方法利用笔化宽度的一致 性和颜色的一致性等启发式规则构建文本候选 区,即进行文本粗检测,然后利用分类器进一步过 滤背景像素. 基于连通域的算法的一方面降低了 计算的复杂度,另一方面由于检测到的连通域可 以对文本直接进行分割,这有利于后续文本的识 别. 然而基于连通域的算法常常面临着三个问题: 第一,由于该算法对噪声的包容性差,因此非常容 易形成不正确的连通域;第二,在利用启发式规则 过滤连通域和文本行的噪声因素时,在不同的数 据集上的检测结果具有较大差异性;第三,启发式 滤除规则并不能百分百有效地区分文本区域与背 景,从而造成误检. 基于滑动检测窗的方法通过“检测窗”界定文 本框,因此无需像基于连通域的方法一样通过文 本边缘、角点的提取来获取候选区域,可以有效避 免粘连字符对候选区域提取的影响. 该类方法的 主要缺陷在于对滑窗依赖极大,而窗口形状、大 小、滑窗步长设置较为困难,通用性较差. 3 基于深度学习的自然场景文本检测方法 深度学习文本检测方法是一种特殊的基于学 习的文本检测方法. 在经典的基于学习的文本检 测方法中,多采用“人工特征子特征提取”和“分类 器预测”两个步骤,受到人工特征子特征表示能力 的制约. 深度神经网络具有在数据中自动学习特 征表示的能力,而稠密的特征向量形式有效避免 了稀疏特征向量可能造成的“维数灾难”,极大推 动了机器学习技术的发展. 目前己经出现了大量的基于深度学习的自然 场景文本检测方法,并取得了优于经典文本检测 方法的效果[26] . 一般而言,基于深度学习的自然场 景文本检测方法多采用 2 种深度学习图像处理策 略:1)目标检测算法中的“区域建议”的策略;2)图 像语义分割策略. 多数方法在这两种策略中有 所侧重,也有很多方法既采用了基于区域建议的 思想回归边界框,又用到了图像分割策略学习像 素级的语义信息. 因此,本文分别介绍了基于区域 建议的方法和基于分割的方法,同时在后文的“混 合方法”一节中对综合采用两种策略的方法进行 分析. 3.1 基于区域建议的方法 3.1.1 基本思想 该类方法以通用目标检测网络为基本模型, 并在其基础上结合文本检测的实际应用对算法进 行改良,如将通用的多类目标检测模型调整为单 类(文本)检测模型. 以常见目标检测模型 Faster R-CNN(Faster region-based convolutional network) [27] 为例,其基本流程为:1)CNN 图片特征提取;2)候 白志程等: 自然场景文本检测技术研究综述 · 1437 ·
1438 工程科学学报,第42卷,第11期 选区域Rol(Region of interest)与候选框生成;3)通 在水平和多方向文本检测任务中均取得了更高的 过分类器生成候选框得分;4)通过非最大值抑制 召回率 方法(Non-maximum suppression,NMS)排除多余候 3.1.3基于SSD的方法 选框,得到最终检测结果.被用于文本检测的常见 SSD2]将图片输入到修改后的VGG16阿得不 目标检测模型还有SSD(Single shot multi--box 同大小的特征映射,然后抽取Conv43、Conv7、 detector)21R-FCN(Region-based fully convolutional Conv82、Conv92、Convl02、Convl12这6个卷 networks)P等 积层的特征图,并分别在这些特征图上面的每一 3.l.2基于Faster R-CNN的方法 个点构造不同尺度大小的参考框,最后利用NMS FasterR-CNNP7由卷积层、区域建议网络(Region 对所有的参考框进行处理,抑制非最优参考框,输 proposal network,RPN)、Rol池化层(Rol Pooling 出最终检测结果 layer)、分类回归层4个子模块构成.卷积层用于 文献[37刀提出SegLink算法,将图片输入到SSD 提取图片特征,其输入为整张图片,输出为图片的 网络中,分别提取文本框和不同框之间的连接信 特征图;RPN用于生成与文本对象相关的多个候 息.该模型的输出不针对整个文本行或单词,而是 选框:RoI池化层将不同尺寸的候选框转化为固定 文本行或单词的一个部分,被称为“片段(Segment)” 尺寸:分类和回归层对候选区域进行预测,同时获 该片段可以是1个或多个字符,或1个单词.通过 得候选区域在图像中的精确位置 对文本框连接信息的挖掘,该算法以不同Segment 针对使用原生Fast R-CNN完成文本检测任务 的组合为最终输出,避免了连接Segment构建文本 时有可能忽略文本行尺度的问题,文献[30]提出 行的后处理过程.值得注意的是,SegLink输出的 一种基于特征融合的深度神经网络,该网络将常 参考文本框带有角度信息,同时针对特征图上每 用深度神经网络中的高层特征与低层特征相融 个点仅输出一个框,大幅度降低了计算复杂度.文 合,构建“高级语义”神经网络模型.该文中设计了 献[38]中的TextBoxes也是典型的基于SSD的算 特征融合模块,利用高层网络所抽取的高度抽象、 法.TextBoxes修改了原始SSD中卷积核的大小, 具有强语义信息的特征信号来提高网络的整体性 同时调整了参考框的形状和长宽比,使其更适用 能.此外,通过多个输出层对不同尺度的文本直接 于文本检测.文中还提出端到端的训练框架,采用 进行预测.在ICDAR201IB别和ICDAR2013数据 文本识别任务的结果进一步优化文本行检测模 集上的实验中,该方法对小尺度文本的定位效果 型,在保证效率的情况下取得了良好的结果.文 更为突出.文献[33]沿用了Faster-RCNN中RPN 献[39]提出的TextBoxes+是TextBoxes的扩展 的思想,并在此基础上进行了改进,提出一种旋转 版,同样基于SSD网络.该方法设计了一种文本 候选区域网络(Rotation对齐方式RPN).整个网络 框层(Textbox layer)结构,解决了SsD无法有效检 结构和Faster R-CNN非常相似,分成并行两路:一 测极端长宽比文本的问题,进一步提升检测性能 路用于预测类别,另一路用于回归旋转候选框,首 此外,SSD和TextBoxes仅支持水平方向的检测, 先由旋转候选区域网络生成带倾斜角的候选框, 而TextBoxes+可以产生有旋转角度的矩形文本 同时输出候选框的类别;接着通过Rol层将生成 检测框,能够有效检测旋转文本.文献[40]对 的候选框映射到特征图上.文献34提出RCNN SSD进行改良,增加角度信息来检测多方向文字 (Rotational region CNN)算法来检测自然场景下任 这一方法采用Inception!结构优化特征,并在SSD 意角度旋转的文本.该算法在原有Faster R-CNN 的特征融合层增加Attention机制,进一步强化文 的基础上使用RPN网络在文本区域坐标轴方向上 字特征.文献[42]摒弃了SSD中分类和回归共享 产生不同方向的轴对称的候选框,之后对每个方 特征图的方式,提出使用两个独立的网络分支分 向的候选区域特征使用不同的池化尺寸进行特征 别进行分类和回归.旋转不变特征用于分类,方向 融合.该融合特征被用于预测文本/啡文置信度, 敏感特征用于回归.该方法可以嵌入到任何已存 确定轴对称候选框、倾斜候选框.该算法取得了 在的目标检测框架中,并可以在提升精度的前提 F值82.54的预测结果.文献[35]提出一种无锚区 下大大减少运算时间,对多方向文本进行检测.文 域a建议网络(Anchor--free region proposal network, 献[43]综合了特征金字塔网络(Feature pyramid AF-RPN)替代Faster R-CNN中的基于参考框的区 networks,FPN)和SegLink模型,提出一种高效场 域建议方法.该方法能够摆脱复杂的参考框设计, 景文本检测模型Seg-FPN.Seg-FPN一方面将特
选区域 RoI(Region of interest)与候选框生成;3) 通 过分类器生成候选框得分;4)通过非最大值抑制 方法(Non-maximum suppression, NMS)排除多余候 选框,得到最终检测结果. 被用于文本检测的常见 目 标 检 测 模 型 还 有 SSD( Single shot multi-box detector) [28]、R-FCN(Region-based fully convolutional networks) [29] 等. 3.1.2 基于 Faster R-CNN 的方法 Faster R-CNN[27] 由卷积层、区域建议网络(Region proposal network, RPN) 、 RoI 池化层 ( RoI Pooling layer)、分类回归层 4 个子模块构成. 卷积层用于 提取图片特征,其输入为整张图片,输出为图片的 特征图;RPN 用于生成与文本对象相关的多个候 选框;RoI 池化层将不同尺寸的候选框转化为固定 尺寸;分类和回归层对候选区域进行预测,同时获 得候选区域在图像中的精确位置. 针对使用原生 Fast R-CNN 完成文本检测任务 时有可能忽略文本行尺度的问题,文献 [30] 提出 一种基于特征融合的深度神经网络,该网络将常 用深度神经网络中的高层特征与低层特征相融 合,构建“高级语义”神经网络模型. 该文中设计了 特征融合模块,利用高层网络所抽取的高度抽象、 具有强语义信息的特征信号来提高网络的整体性 能. 此外,通过多个输出层对不同尺度的文本直接 进行预测. 在 ICDAR2011[31] 和 ICDAR2013[32] 数据 集上的实验中,该方法对小尺度文本的定位效果 更为突出. 文献 [33] 沿用了 Faster-RCNN 中 RPN 的思想,并在此基础上进行了改进,提出一种旋转 候选区域网络(Rotation 对齐方式 RPN). 整个网络 结构和 Faster R-CNN 非常相似,分成并行两路:一 路用于预测类别,另一路用于回归旋转候选框. 首 先由旋转候选区域网络生成带倾斜角的候选框, 同时输出候选框的类别;接着通过 RoI 层将生成 的候选框映射到特征图上. 文献 [34] 提出 R 2CNN (Rotational region CNN)算法来检测自然场景下任 意角度旋转的文本. 该算法在原有 Faster R-CNN 的基础上使用 RPN 网络在文本区域坐标轴方向上 产生不同方向的轴对称的候选框,之后对每个方 向的候选区域特征使用不同的池化尺寸进行特征 融合. 该融合特征被用于预测文本/非文置信度, 确定轴对称候选框、倾斜候选框. 该算法取得了 F 值 82.54 的预测结果. 文献 [35] 提出一种无锚区 域建议网络 ( Anchor-free region proposal network, AF-RPN)替代 Faster R-CNN 中的基于参考框的区 域建议方法. 该方法能够摆脱复杂的参考框设计, 在水平和多方向文本检测任务中均取得了更高的 召回率. 3.1.3 基于 SSD 的方法 SSD[28] 将图片输入到修改后的 VGG16[36] 得不 同大小的特征映射 ,然后抽取 Conv4_3、 Conv7、 Conv8_2、Conv9_2、Conv10_2、Conv11_2 这 6 个卷 积层的特征图,并分别在这些特征图上面的每一 个点构造不同尺度大小的参考框,最后利用 NMS 对所有的参考框进行处理,抑制非最优参考框,输 出最终检测结果. 文献 [37] 提出 SegLink 算法,将图片输入到 SSD 网络中,分别提取文本框和不同框之间的连接信 息. 该模型的输出不针对整个文本行或单词,而是 文本行或单词的一个部分,被称为“片段(Segment)”. 该片段可以是 1 个或多个字符,或 1 个单词. 通过 对文本框连接信息的挖掘,该算法以不同 Segment 的组合为最终输出,避免了连接 Segment 构建文本 行的后处理过程. 值得注意的是,SegLink 输出的 参考文本框带有角度信息,同时针对特征图上每 个点仅输出一个框,大幅度降低了计算复杂度. 文 献 [38] 中的 TextBoxes 也是典型的基于 SSD 的算 法. TextBoxes 修改了原始 SSD 中卷积核的大小, 同时调整了参考框的形状和长宽比,使其更适用 于文本检测. 文中还提出端到端的训练框架,采用 文本识别任务的结果进一步优化文本行检测模 型,在保证效率的情况下取得了良好的结果. 文 献 [39] 提 出 的 TextBoxes++是 TextBoxes 的 扩 展 版,同样基于 SSD 网络. 该方法设计了一种文本 框层(Textbox layer)结构,解决了 SSD 无法有效检 测极端长宽比文本的问题,进一步提升检测性能. 此外,SSD 和 TextBoxes 仅支持水平方向的检测, 而 TextBoxes++可以产生有旋转角度的矩形文本 检测框 ,能够有效检测旋转文本 . 文 献 [40] 对 SSD 进行改良,增加角度信息来检测多方向文字. 这一方法采用 Inception[41] 结构优化特征,并在 SSD 的特征融合层增加 Attention 机制,进一步强化文 字特征. 文献 [42] 摒弃了 SSD 中分类和回归共享 特征图的方式,提出使用两个独立的网络分支分 别进行分类和回归. 旋转不变特征用于分类,方向 敏感特征用于回归. 该方法可以嵌入到任何已存 在的目标检测框架中,并可以在提升精度的前提 下大大减少运算时间,对多方向文本进行检测. 文 献 [43] 综合了特征金字塔网络 ( Feature pyramid networks,FPN)和 SegLink 模型,提出一种高效场 景文本检测模型 Seg−FPN. Seg−FPN 一方面将特 · 1438 · 工程科学学报,第 42 卷,第 11 期