工程科学学报 Chinese Journal of Engineering 自然场景文本检测技术研究综述 白志程李擎陈鹏郭立睛 Text detection in natural scenes:a literature review BAI Zhi-cheng.LI Qing.CHEN Peng.GUO Li-qing 引用本文: 白志程,李擎,陈鹏,郭立晴.自然场景文本检测技术研究综述.工程科学学报,2020,42(11)片1433-1448.doi: 10.13374j.issn2095-9389.2020.03.24.002 BAI Zhi-cheng,LI Qing.CHEN Peng.GUO Li-qing.Text detection in natural scenes:a literature review[J].Chinese Journal of Engineering,.2020,42(11:1433-1448.doi:10.13374j.issn2095-9389.2020.03.24.002 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.03.24.002 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报.2020.42(5:557 https:doi.org10.13374.issn2095-9389.2019.03.21.003 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报.2020,42(4):399 https::1doi.org10.13374.issn2095-9389.2019.06.16.030 基于TATLNet的输电场景威胁检测 Threat detection in transmission scenario based on TATLNet 工程科学学报.2020,42(4:509 https::/1doi.org/10.13374.issn2095-9389.2019.09.15.004 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报.2019,41(9%:1208 https:1oi.org10.13374.issn2095-9389.2019.09.013 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报.2019.41(6):817 https:/doi.org10.13374.issn2095-9389.2019.06.014 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low-illumination conditions 工程科学学报.2020.42(8:1074 https:/doi.org/10.13374.issn2095-9389.2019.08.14.003
自然场景文本检测技术研究综述 白志程 李擎 陈鹏 郭立晴 Text detection in natural scenes: a literature review BAI Zhi-cheng, LI Qing, CHEN Peng, GUO Li-qing 引用本文: 白志程, 李擎, 陈鹏, 郭立晴. 自然场景文本检测技术研究综述[J]. 工程科学学报, 2020, 42(11): 1433-1448. doi: 10.13374/j.issn2095-9389.2020.03.24.002 BAI Zhi-cheng, LI Qing, CHEN Peng, GUO Li-qing. Text detection in natural scenes: a literature review[J]. Chinese Journal of Engineering, 2020, 42(11): 1433-1448. doi: 10.13374/j.issn2095-9389.2020.03.24.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.03.24.002 您可能感兴趣的其他文章 Articles you may be interested in 多模态学习方法综述 A survey of multimodal machine learning 工程科学学报. 2020, 42(5): 557 https://doi.org/10.13374/j.issn2095-9389.2019.03.21.003 文本生成领域的深度强化学习研究进展 Research progress of deep reinforcement learning applied to text generation 工程科学学报. 2020, 42(4): 399 https://doi.org/10.13374/j.issn2095-9389.2019.06.16.030 基于TATLNet的输电场景威胁检测 Threat detection in transmission scenario based on TATLNet 工程科学学报. 2020, 42(4): 509 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.004 一种面向网络长文本的话题检测方法 A topic detection method for network long text 工程科学学报. 2019, 41(9): 1208 https://doi.org/10.13374/j.issn2095-9389.2019.09.013 基于深度学习的人体低氧状态识别 Recognition of human hypoxic state based on deep learning 工程科学学报. 2019, 41(6): 817 https://doi.org/10.13374/j.issn2095-9389.2019.06.014 弱光照条件下交通标志检测与识别 Traffic signs detection and recognition under low-illumination conditions 工程科学学报. 2020, 42(8): 1074 https://doi.org/10.13374/j.issn2095-9389.2019.08.14.003
工程科学学报.第42卷,第11期:1433-1448.2020年11月 Chinese Journal of Engineering,Vol.42,No.11:1433-1448,November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.03.24.002;http://cje.ustb.edu.cn 自然场景文本检测技术研究综述 白志程2),李擎1,2)区,陈鹏》,郭立晴) 1)北京科技大学自动化学院,北京1000832)工业过程知识自动化教育部重点实验室,北京1000833)中国邮政储蓄银行金融科技创新 部.北京100808 ☒通信作者,E-mail:liging@ies.ustb.edu.cn 摘要文本检测在自动驾驶和跨模态图像检索中具有极为广泛的应用.该技术也是基于光学字符的文本识别任务中重要 的前置环节.目前,复杂场景下的文本检测仍极具挑战性.本文对自然场景文本检测进行综述,回顾了针对该问题的主要技 术和相关研究进展,并对研究现状进行分析.首先对问题进行概述,分析了自然场景中文本检测的主要特点:接着,介绍了经 典的基于连通域分析、基于滑动检测窗的自然场景文本检测技术:在此基础上,综述了近年来较为常用的深度学习文本检测 技术:最后,对自然场景文本检测未来可能的研究方向进行展望. 关键词文本检测:场景文本;连通域分析:图像处理:统计学习:深度学习 分类号TP18 Text detection in natural scenes:a literature review BAI Zhi-cheng2),LI Qing CHEN Peng,GUO Li-qing 1)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of Knowledge Automation for Industrial Processes,Ministry of Education,Beijing 100083,China 3)FINTECH Innovation Division,Postal Savings Bank of China,Beijing 100808,China Corresponding author,E-mail:liqing @ies.ustb.edu.cn ABSTRACT Text detection is widely applied in the automatic driving and cross-modal image retrieval fields.This technique is also an important pre-procedure in optical character-based text recognition tasks.At present,text detection in complex natural scenes remains a challenging topic.Because text distribution and orientation are varied in different scenes and domains,there is still room for improvement in existing computer vision-based text detection methods.To complicate matters,natural scene texts,such as those in guideposts and shop signs,always contain words in different languages.Even characters are missing from some natural scene texts. These circumstances present more difficulties for feature extraction and feature description,thereby weakening the detectability of existing computer vision and image processing methods.In this context,text detection applications in natural scenes were summarized in this paper,the classical and newly presented techniques were reviewed,and the research progress and status were analyzed.First,the definitions of natural scene text detection and associated concepts were provided based on an analysis of the main characteristics of this problem.In addition,the classic natural scene text detection technologies,such as connected component analysis-based methods and sliding detection window-based methods,were introduced comprehensively.These methods were also compared and discussed. Furthermore,common deep learning models for scene text detection of the past decade were also reviewed.We divided these models into two main categories:region proposal-based models and segmentation-based models.Accordingly,the typical detection and semantic segmentation frameworks,including Faster R-CNN,SSD,Mask R-CNN,FCN,and FCIS,were integrated in the deep learning methods reviewed in this section.Moreover,hybrid algorithms that use region proposal ideas and segmentation strategies were also analyzed.As 收稿日期:2020-03-24 基金项目:国家自然科学基金资助项目(11296089)
自然场景文本检测技术研究综述 白志程1,2),李 擎1,2) 苣,陈 鹏3),郭立晴1) 1) 北京科技大学自动化学院,北京 100083 2) 工业过程知识自动化教育部重点实验室,北京 100083 3) 中国邮政储蓄银行金融科技创新 部,北京 100808 苣通信作者,E-mail:liqing@ies.ustb.edu.cn 摘 要 文本检测在自动驾驶和跨模态图像检索中具有极为广泛的应用. 该技术也是基于光学字符的文本识别任务中重要 的前置环节. 目前,复杂场景下的文本检测仍极具挑战性. 本文对自然场景文本检测进行综述,回顾了针对该问题的主要技 术和相关研究进展,并对研究现状进行分析. 首先对问题进行概述,分析了自然场景中文本检测的主要特点;接着,介绍了经 典的基于连通域分析、基于滑动检测窗的自然场景文本检测技术;在此基础上,综述了近年来较为常用的深度学习文本检测 技术;最后,对自然场景文本检测未来可能的研究方向进行展望. 关键词 文本检测;场景文本;连通域分析;图像处理;统计学习;深度学习 分类号 TP18 Text detection in natural scenes: a literature review BAI Zhi-cheng1,2) ,LI Qing1,2) 苣 ,CHEN Peng3) ,GUO Li-qing1) 1) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of Knowledge Automation for Industrial Processes, Ministry of Education, Beijing 100083, China 3) FINTECH Innovation Division, Postal Savings Bank of China, Beijing 100808, China 苣 Corresponding author, E-mail: liqing@ies.ustb.edu.cn ABSTRACT Text detection is widely applied in the automatic driving and cross-modal image retrieval fields. This technique is also an important pre-procedure in optical character-based text recognition tasks. At present, text detection in complex natural scenes remains a challenging topic. Because text distribution and orientation are varied in different scenes and domains, there is still room for improvement in existing computer vision-based text detection methods. To complicate matters, natural scene texts, such as those in guideposts and shop signs, always contain words in different languages. Even characters are missing from some natural scene texts. These circumstances present more difficulties for feature extraction and feature description, thereby weakening the detectability of existing computer vision and image processing methods. In this context, text detection applications in natural scenes were summarized in this paper, the classical and newly presented techniques were reviewed, and the research progress and status were analyzed. First, the definitions of natural scene text detection and associated concepts were provided based on an analysis of the main characteristics of this problem. In addition, the classic natural scene text detection technologies, such as connected component analysis-based methods and sliding detection window-based methods, were introduced comprehensively. These methods were also compared and discussed. Furthermore, common deep learning models for scene text detection of the past decade were also reviewed. We divided these models into two main categories: region proposal-based models and segmentation-based models. Accordingly, the typical detection and semantic segmentation frameworks, including Faster R-CNN, SSD, Mask R-CNN, FCN, and FCIS, were integrated in the deep learning methods reviewed in this section. Moreover, hybrid algorithms that use region proposal ideas and segmentation strategies were also analyzed. As 收稿日期: 2020−03−24 基金项目: 国家自然科学基金资助项目(11296089) 工程科学学报,第 42 卷,第 11 期:1433−1448,2020 年 11 月 Chinese Journal of Engineering, Vol. 42, No. 11: 1433−1448, November 2020 https://doi.org/10.13374/j.issn2095-9389.2020.03.24.002; http://cje.ustb.edu.cn
1434 工程科学学报,第42卷,第11期 a supplement,several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally,possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像 本、图片文档覆盖文本.文档图像一般为二值化 或符号.当今社会,我们的生活场景中充满了各种 图像,如文字、资料的照片和PDF文件,其黑色为 各样的文本信息.具有特定而且明确语义的文本 前景文字,背景为白色,便于文字的检测识别.图 是对自然场景极为重要的概括、说明和表达.自 片文档覆盖文本则以视频字幕、图片中经人工植 然场景文本检测是实现智能场景感知的关键技 入的说明性文本为主要形式.文档图像文本、图 术,具有重要研究意义.但由于自然场景中的文本 片覆盖文本的布局相对固定,文本区域分割相对 存在背景复杂多样、文本字体不统一、大小不一 容易.而自然场景中的文本出现形式多变,位置、 致、方向不确定等问题,目前对该任务的处理还未 对齐方式不统一.自然场景图片大多为彩色,文字 达到理想的效果.本文首先简述了文本检测问题, 区域往往产生强烈的亮度变化,使得单从像素上 分析了自然场景文本检测的研究进展和现状.接 区分文字和背景变得困难.而同一文本块内,文字 着,从经典文本检测方法与深度学习文本检测方 的字体和字号、高度和宽度以及粗细往往保持一 法两个方面,分析并比较了各类自然场景文本检 致,同一文字块当中往往具有相同的颜色,这给单 测技术的优缺点.最后,展望了自然场景文本检测 词、单字等字符单元的切分带来新的困难山图1 未来可能的研究方向 为自然场景中文本的示例图片 1问题概述:自然场景中的文本检测 IOHN LITTLE 11问题定义与基本概念 文本检测(Text detection)可被视为计算机视 觉目标检测(Object detection)任务的一种特殊形 式.该任务的输入为包含文本的图片,输出为以边 界框为主要形式的预测信息.一般目标检测任务 的输出为图片中动物、家具、汽车等对象的位置 图1自然场景示例图片 Fig.I Sample images of nature scenes 和区域,而文本检测则主要关注图片中文本的精 准定位.相较于一般的目标检测,自然场景中的文 一般来说,自然场景的文本识别由于环境更 字具有多方向、不规则形状、极端长宽比和字体、 加复杂多样,其识别难度相对困难,通常通过文本 颜色、背景多样等特点,因此,在一般目标检测上 检测和文本识别两个步骤来完成.文本检测作为 较为成功的算法往往无法直接迁移到文字检 OC℉的重要技术手段之一,也是文本识别的前提. 测中 在文本检测任务中,文本行(Text lines)检测是 与文本检测相关联的概念是文本识别,如光 一个重要的环节.文本行是由字符、部分字符或 学字符识别(Optical character recognition.,OCR).该 多字符组成的条状、不规则形状的区域.文本检 任务的输人为包含文本光学字符信号的图片或视 测在获取文本行后针对字符进行进一步切分 频,输出为对应的文字信息.目前,OC℉技术可有 1.2研究进展与现状分析 效、准确地对PDF、图片文档等形式的资料进行 文本检测与识别工作最初用于对文档图像进 识别和分析,获取文字.然而,对于自然场景中的 行分析.由于文档图像的背景简单、文字排列整 路标、车牌号、建筑标识等对象,现有OC℉技术仍 齐,其检测识别难度较小.经过几十年的发展,基 有较大的进步空间.可大致将OCR分为识别特定 于文档图像的检测识别技术已经趋于成熟.近年 场景的专用OCR和识别多种场景的通用OCR.比 来,高像素智能手机等设备的出现使越来越多的 如车牌识别是对特定场景的OCR,而对自然场景 人们开始拍摄周围的事物,积累了海量的自然场 中的文字识别则为通用场景OCR 景图像.有关自然场景图像中文本检测与识别技 与自然场景文本相关联的概念为文档图像文 术的研究逐渐成为计算机视觉领域的热点问题
a supplement, several end-to-end text recognition strategies that can automatically identify characters in natural scenes were elucidated. Finally, possible research directions and prospects in this field were analyzed and discussed. KEY WORDS text detection;scene text;connected domain analysis;image processing;statistical learning;deep learning 文字是承载语言、记录思想、传递文明的图像 或符号. 当今社会,我们的生活场景中充满了各种 各样的文本信息. 具有特定而且明确语义的文本 是对自然场景极为重要的概括、说明和表达. 自 然场景文本检测是实现智能场景感知的关键技 术,具有重要研究意义. 但由于自然场景中的文本 存在背景复杂多样、文本字体不统一、大小不一 致、方向不确定等问题,目前对该任务的处理还未 达到理想的效果. 本文首先简述了文本检测问题, 分析了自然场景文本检测的研究进展和现状. 接 着,从经典文本检测方法与深度学习文本检测方 法两个方面,分析并比较了各类自然场景文本检 测技术的优缺点. 最后,展望了自然场景文本检测 未来可能的研究方向. 1 问题概述:自然场景中的文本检测 1.1 问题定义与基本概念 文本检测(Text detection)可被视为计算机视 觉目标检测(Object detection)任务的一种特殊形 式. 该任务的输入为包含文本的图片,输出为以边 界框为主要形式的预测信息. 一般目标检测任务 的输出为图片中动物、家具、汽车等对象的位置 和区域,而文本检测则主要关注图片中文本的精 准定位. 相较于一般的目标检测,自然场景中的文 字具有多方向、不规则形状、极端长宽比和字体、 颜色、背景多样等特点,因此,在一般目标检测上 较为成功的算法往往无法直接迁移到文字检 测中. 与文本检测相关联的概念是文本识别,如光 学字符识别(Optical character recognition,OCR). 该 任务的输入为包含文本光学字符信号的图片或视 频,输出为对应的文字信息. 目前,OCR 技术可有 效、准确地对 PDF、图片文档等形式的资料进行 识别和分析,获取文字. 然而,对于自然场景中的 路标、车牌号、建筑标识等对象,现有 OCR 技术仍 有较大的进步空间. 可大致将 OCR 分为识别特定 场景的专用 OCR 和识别多种场景的通用 OCR. 比 如车牌识别是对特定场景的 OCR,而对自然场景 中的文字识别则为通用场景 OCR. 与自然场景文本相关联的概念为文档图像文 本、图片文档覆盖文本. 文档图像一般为二值化 图像,如文字、资料的照片和 PDF 文件,其黑色为 前景文字,背景为白色,便于文字的检测识别. 图 片文档覆盖文本则以视频字幕、图片中经人工植 入的说明性文本为主要形式. 文档图像文本、图 片覆盖文本的布局相对固定,文本区域分割相对 容易. 而自然场景中的文本出现形式多变,位置、 对齐方式不统一. 自然场景图片大多为彩色,文字 区域往往产生强烈的亮度变化,使得单从像素上 区分文字和背景变得困难. 而同一文本块内,文字 的字体和字号、高度和宽度以及粗细往往保持一 致,同一文字块当中往往具有相同的颜色,这给单 词、单字等字符单元的切分带来新的困难[1] . 图 1 为自然场景中文本的示例图片. 一般来说,自然场景的文本识别由于环境更 加复杂多样,其识别难度相对困难,通常通过文本 检测和文本识别两个步骤来完成. 文本检测作为 OCR 的重要技术手段之一,也是文本识别的前提. 在文本检测任务中,文本行(Text lines)检测是 一个重要的环节. 文本行是由字符、部分字符或 多字符组成的条状、不规则形状的区域. 文本检 测在获取文本行后针对字符进行进一步切分. 1.2 研究进展与现状分析 文本检测与识别工作最初用于对文档图像进 行分析. 由于文档图像的背景简单、文字排列整 齐,其检测识别难度较小. 经过几十年的发展,基 于文档图像的检测识别技术已经趋于成熟. 近年 来,高像素智能手机等设备的出现使越来越多的 人们开始拍摄周围的事物,积累了海量的自然场 景图像. 有关自然场景图像中文本检测与识别技 术的研究逐渐成为计算机视觉领域的热点问题[2] . 图 1 自然场景示例图片 Fig.1 Sample images of nature scenes · 1434 · 工程科学学报,第 42 卷,第 11 期
白志程等:自然场景文本检测技术研究综述 1435· 外在、内在两方面的因素制约了对自然场景中文 文本候选,最后通过经验规则分析来识别文本区 本的检测效果.外在因素是指自然场景中常包含 域,并通过项目概况分析来完善文本区域.文献[10] 不同种类的对象如建筑、墙壁、动物、植物、行人 使用傅立叶-拉普拉斯滤波器过滤输入图像,同样 等,这些噪声信号会影响文本检测器的性能]在 采用K均值聚类方法基于最大差异来识别候选文 用手机拍摄图片时,过强或偏暗的光照强度影响 本区域,随后采用文本字符串的直线度和边缘密 着对图片中文本的感知能力.内在因素是指自然 度判断文本候选区域,去除背景区域.文献[11]通 场景中文本可以是任意方向的,所以需要检测的 过候选边缘重组和边缘分类两个步骤优化笔划宽 边界框通常为旋转的矩形或四边形;场景文本边 度变换方法.边缘重组步骤利用分割、区域合并 界框的长宽比变化很大,且通常会存在极端的长 等手段,将输入图像中的边缘信号处理为一组小 宽比:场景文本有字符、单词或者文本行等多种形 单元(边缘片段),利用宽度、颜色等指导信息合并 式.这些因素使算法在定位边界框时会难以判定 这些小单元,从而区分文本边缘和背景:在边界分 文本实例 类的步骤中,首先将候选边界聚合到文本行中,然 相对人脸检测等问题,自然场景文本检测研究 后使用基于字符和基于链的特征对文本行进行分 相对滞后,相关研究工作始于20世纪90年代俐 类.文献[12]基于与周围像素的有效像素强度比 早期的自然场景文本检测算法利用初级、直观的 较,提出一种易于实现的笔划检测器,首先检测特 图像特征;近年来,深度学习方法兴起,通过深度 定的笔划关键点,通过由关键点属性指导的局部 神经网络表示图像信号间,可以避免繁琐低效的 阈值提取文本片段,进而通过特征分析实现分类, 人工特征工程,同时有效提高了场景文本检测的 从而消除非文本区域.基于边缘的文本检测方法 效果 适用于背景简单的图片,在背景比较复杂时,边缘 检测算子极易受到干扰,无法获取有效边缘轮廓 2经典自然场景文本检测方法 2.1.2基于笔划宽度变换的方法 经典的文本检测方法可分为两大类:基于连 笔划宽度变换(Stroke width transform,SWT)是 通域分析的文本检测方法和基于滑动窗口的文本 一种有效的文本区域检测算法,不同于基于边缘 检测方法.连通域方法首先利用边缘提取等数字 的方法从像素梯度、角点等方面获取图片级的特 图像处理技术对输入图片进行预处理,获取文本 征信息,SWT方法更关注于字符级的笔划特征 候选区域,进而采用不同的连通域分析方法对该 如第1节中分析,OCR技术在有噪声的图像上效 区域进行细化加工,实现字符和文本的联通和定 果较差.SWT通过提取出具有一致宽度的带状目 位.根据区域生成和特征表示方法的不同,本文将 标来检测文本,有效消除了大部分噪声,得到更可 基于连通域的方法进一步划分为基于边缘的方 靠的光学字符识别结果 法、基于笔划宽度变换的方法和基于最大稳定极 笔划宽度变换算法由Epshtein等在文献[I3] 值区域的方法并分别进行介绍.基于滑动窗口的 中首次提出,该算法从高对比度边缘上的一点开 方法则采用人工特征对候选区域进行表示,并利 始,在垂直于边缘的方向上逐像素进行分析,找到 用该特征训练分类器,对候选区域进行预测和验 另一条与之平行的边缘上的一点,由这两点构成 证.这两类方法在实际应用中可以互为补充 一个笔划横截面.许多宽度相似的笔划横截面连 2.1基于连通域的方法 接构成一个完整的笔划.笔划宽度的确定过程如 2.1.1基于边缘的方法 图2所示,其中p是笔划边界上的一个像素,沿 自然场景中的文本往往具有丰富的边缘和角 p点梯度方向搜索,就可以找到笔划另一侧对应的 点信息,基于边缘的文本检测方法通过Cannym7边 像素9,w为对应笔划的宽度.在此基础上,笔划组 缘检测算子提取图片边缘和角点来获取文本的候 成字符,字符组成词汇和文本区域.SWT算法的 选区域,进而使用规则或分类器对文本候选区域 一个好处是不需要知道文本的语言和字体类型即 进行定位预测 可实现文本定位 文献[8]首先应用Sobel边缘检测算子例获得 笔划宽度变换算法提出后,文献[14、文献[15] 水平,垂直,右上和左上方向的四个边缘图,然后 对其进行了发展和改进.文献[14]通过笔划宽度 从四个边缘图中提取特征以表示文本的纹理属 变换处理获得文本候选区域,使用文本级分类器 性,进而应用K均值(K-means)聚类算法检测初始 过滤非文本区域:用文本之间的相似性连接文本
外在、内在两方面的因素制约了对自然场景中文 本的检测效果. 外在因素是指自然场景中常包含 不同种类的对象如建筑、墙壁、动物、植物、行人 等,这些噪声信号会影响文本检测器的性能[3] . 在 用手机拍摄图片时,过强或偏暗的光照强度影响 着对图片中文本的感知能力. 内在因素是指自然 场景中文本可以是任意方向的,所以需要检测的 边界框通常为旋转的矩形或四边形;场景文本边 界框的长宽比变化很大,且通常会存在极端的长 宽比;场景文本有字符、单词或者文本行等多种形 式. 这些因素使算法在定位边界框时会难以判定 文本实例. 相对人脸检测等问题,自然场景文本检测研究 相对滞后,相关研究工作始于 20 世纪 90 年代[4] . 早期的自然场景文本检测算法利用初级、直观的 图像特征;近年来,深度学习方法兴起,通过深度 神经网络表示图像信号[5] ,可以避免繁琐低效的 人工特征工程[6] ,同时有效提高了场景文本检测的 效果. 2 经典自然场景文本检测方法 经典的文本检测方法可分为两大类:基于连 通域分析的文本检测方法和基于滑动窗口的文本 检测方法. 连通域方法首先利用边缘提取等数字 图像处理技术对输入图片进行预处理,获取文本 候选区域,进而采用不同的连通域分析方法对该 区域进行细化加工,实现字符和文本的联通和定 位. 根据区域生成和特征表示方法的不同,本文将 基于连通域的方法进一步划分为基于边缘的方 法、基于笔划宽度变换的方法和基于最大稳定极 值区域的方法并分别进行介绍. 基于滑动窗口的 方法则采用人工特征对候选区域进行表示,并利 用该特征训练分类器,对候选区域进行预测和验 证. 这两类方法在实际应用中可以互为补充. 2.1 基于连通域的方法 2.1.1 基于边缘的方法 自然场景中的文本往往具有丰富的边缘和角 点信息,基于边缘的文本检测方法通过 Canny[7] 边 缘检测算子提取图片边缘和角点来获取文本的候 选区域,进而使用规则或分类器对文本候选区域 进行定位预测. 文献 [8] 首先应用 Sobel 边缘检测算子[9] 获得 水平,垂直,右上和左上方向的四个边缘图,然后 从四个边缘图中提取特征以表示文本的纹理属 性,进而应用 K 均值(K-means)聚类算法检测初始 文本候选,最后通过经验规则分析来识别文本区 域,并通过项目概况分析来完善文本区域. 文献 [10] 使用傅立叶−拉普拉斯滤波器过滤输入图像,同样 采用 K 均值聚类方法基于最大差异来识别候选文 本区域,随后采用文本字符串的直线度和边缘密 度判断文本候选区域,去除背景区域. 文献 [11] 通 过候选边缘重组和边缘分类两个步骤优化笔划宽 度变换方法. 边缘重组步骤利用分割、区域合并 等手段,将输入图像中的边缘信号处理为一组小 单元(边缘片段),利用宽度、颜色等指导信息合并 这些小单元,从而区分文本边缘和背景;在边界分 类的步骤中,首先将候选边界聚合到文本行中,然 后使用基于字符和基于链的特征对文本行进行分 类. 文献 [12] 基于与周围像素的有效像素强度比 较,提出一种易于实现的笔划检测器,首先检测特 定的笔划关键点,通过由关键点属性指导的局部 阈值提取文本片段,进而通过特征分析实现分类, 从而消除非文本区域. 基于边缘的文本检测方法 适用于背景简单的图片,在背景比较复杂时,边缘 检测算子极易受到干扰,无法获取有效边缘轮廓. 2.1.2 基于笔划宽度变换的方法 笔划宽度变换(Stroke width transform, SWT)是 一种有效的文本区域检测算法. 不同于基于边缘 的方法从像素梯度、角点等方面获取图片级的特 征信息,SWT 方法更关注于字符级的笔划特征. 如第 1 节中分析,OCR 技术在有噪声的图像上效 果较差. SWT 通过提取出具有一致宽度的带状目 标来检测文本,有效消除了大部分噪声,得到更可 靠的光学字符识别结果. 笔划宽度变换算法由 Epshtein 等在文献 [13] 中首次提出,该算法从高对比度边缘上的一点开 始,在垂直于边缘的方向上逐像素进行分析,找到 另一条与之平行的边缘上的一点,由这两点构成 一个笔划横截面. 许多宽度相似的笔划横截面连 接构成一个完整的笔划. 笔划宽度的确定过程如 图 2 所示,其中 p 是笔划边界上的一个像素,沿 p 点梯度方向搜索,就可以找到笔划另一侧对应的 像素 q,w 为对应笔划的宽度. 在此基础上,笔划组 成字符,字符组成词汇和文本区域. SWT 算法的 一个好处是不需要知道文本的语言和字体类型即 可实现文本定位. 笔划宽度变换算法提出后,文献 [14]、文献 [15] 对其进行了发展和改进. 文献 [14] 通过笔划宽度 变换处理获得文本候选区域,使用文本级分类器 过滤非文本区域;用文本之间的相似性连接文本 白志程等: 自然场景文本检测技术研究综述 · 1435 ·
·1436 工程科学学报,第42卷,第11期 图2笔划宽度的定义可(a)一种典型的笔划:(b)笔划边界像素:(c)笔划束上的每个像素 Fig.2 Definition of the stroke width(a)a typical stroke (b)a pixel on the boundary of the stroke:(c)each pixel along the ray 行,然后使用文本行级分类器进一步过滤背景区 确、误差较大的问题.因此,文献[19]提出直接用 域.尽管使用笔划宽度变换处理可以提取不同比 极值区域(Extremal regions.,ER)作为文本候选区 例和方向的文本候选区域,当图像中包含一些具 域.该方法检测图片中所有的极值区域ER,而不 有不规则梯度方向的边缘时,受其干扰,传统的笔 仅仅是MSER的子集,并把文字检测问题处理为 划宽度变换方法往往不能准确地计算出笔划宽 从ER集合中进行有效序列选择的问题,达到实时 度,因此文献[l5]提出了笔划特征变换(Stroke 检测效果.考虑到获得的极值区域的数量过大会 feature transform,SFT)算子,通过合并文本像素的颜 对后续的文本分类精度产生影响,文献[20]提出 色信息扩展笔划宽度计算,有效分割字符中的不相 了对比极值区域(Contrasting extremal region,CER) 关组件,连接相关组件.此外,文献[15]依次采用文 方法.CER选取具有高对比度的极值区域,获得的 本组件分类器和文本行分类器提取文本区域.对文 候选连通区域数量远小于ER,候选范围大大缩 本笔划的启发式属性和统计特征进行编码,通过文 小,提高了算法的效率.文献21]提出颜色增强的 本行置信度图进行阈值确定,进而定位文本区域 对比极值区域(Color-enhanced CER)方法,进一步利 2.13基于最大稳定极值区域的方法 用颜色空间中的信息滤除CER中的冗余像素和噪 最大稳定极值区域(Maximally stable extremal 声.Color--enhanced CER具有视觉感知一致性且对 regions,MSER)是最为经典的文本检测算法之一I 光照不敏感,更接近人眼对颜色的判断.文献22] 其主要思想源于分水岭算法,由于文本区域往往 提出了一种基于多通道光照均衡化的MSER算 具有相似的不连通“稳定极值”,对于这些具有稳 法,解决了传统MSER算法在光照不均匀图片上 定极值的区域进行定位和分割即可获得字符笔划 的文本漏检问题,同时该文献还提出了伪字符区 的边缘信息. 域过滤算法进行多特征融合,解决了传统MSER 具体而言,MSER对灰度图像进行二值化处 算法在复杂背景图片上的漏检问题, 理,在[0,255]区间内,逐步提高阈值.类似于分水 随着自然场景图片内容的日趋复杂,往往出 岭算法中水平面的上升过程,部分“山谷”和“较矮 现文本目标不属于MSER的情况,这限制了MSER 的丘陵”会被淹没,如果从天空往下看,则整个区 方法的应用场景.尽管MSER的检测准确率低于 域被分为陆地和水域两个部分,即对应于切分字 深度学习方法,由于其具有较强的鲁棒性,且计算 符和背景的二值图像.每个阈值都会生成一个二 成本低,该方法常被应用于其它复杂文本检测方 值图.MSER方法可以很好地描述文本内部颜色 法的前期阶段,产生尽可能多的候选区域 的一致性,并且克服噪声和仿射变换的影响,一些 2.2 基于滑动检测窗的方法 文献采用MSER方法在复杂的自然场景图像上获 该类方法设计滑动检测窗,利用窗格自上而 得出色的文本检测性能.文献[I7刀提出将MSER 下扫描图像,并将每个窗格覆盖的图像区域视作 方法应用于自然场景文本检测,通过检测图像中 文本候选区域.通过对该区域提取特征,分类器可 的一些最大稳定极值区域来获得文本候选区域 得出置信度值,通过阈值比较可实现定位和背景 文献[I8]用MSER算法初始化区域,然后用自定 区域分割.考虑到文本大小和文本行长度多变的 义的距离公式合并初始区域生成一个区域集合, 情况,还可以用多尺度滑动窗口进行候选区域的 最后对集合排序,选出前几个作为文本区域.在阈 扫描 值变化过程中,MSER的尺寸长时间保持不变.在 文献[23]首先利用基础特征子对文本区域进 处理模糊、低对比度的图片时,往往存在定位不精 行建模,进而根据特征响应构建弱分类器.这些弱
行,然后使用文本行级分类器进一步过滤背景区 域. 尽管使用笔划宽度变换处理可以提取不同比 例和方向的文本候选区域,当图像中包含一些具 有不规则梯度方向的边缘时,受其干扰,传统的笔 划宽度变换方法往往不能准确地计算出笔划宽 度 ,因此文 献 [15] 提出了笔划特征变换 ( Stroke feature transform, SFT)算子,通过合并文本像素的颜 色信息扩展笔划宽度计算,有效分割字符中的不相 关组件,连接相关组件. 此外,文献 [15] 依次采用文 本组件分类器和文本行分类器提取文本区域,对文 本笔划的启发式属性和统计特征进行编码,通过文 本行置信度图进行阈值确定,进而定位文本区域. 2.1.3 基于最大稳定极值区域的方法 最大稳定极值区域(Maximally stable extremal regions,MSER)是最为经典的文本检测算法之一[16] . 其主要思想源于分水岭算法,由于文本区域往往 具有相似的不连通“稳定极值”,对于这些具有稳 定极值的区域进行定位和分割即可获得字符笔划 的边缘信息. 具体而言,MSER 对灰度图像进行二值化处 理,在 [0, 255] 区间内,逐步提高阈值. 类似于分水 岭算法中水平面的上升过程,部分“山谷”和“较矮 的丘陵”会被淹没,如果从天空往下看,则整个区 域被分为陆地和水域两个部分,即对应于切分字 符和背景的二值图像. 每个阈值都会生成一个二 值图. MSER 方法可以很好地描述文本内部颜色 的一致性,并且克服噪声和仿射变换的影响,一些 文献采用 MSER 方法在复杂的自然场景图像上获 得出色的文本检测性能. 文献 [17] 提出将 MSER 方法应用于自然场景文本检测,通过检测图像中 的一些最大稳定极值区域来获得文本候选区域. 文献 [18] 用 MSER 算法初始化区域,然后用自定 义的距离公式合并初始区域生成一个区域集合, 最后对集合排序,选出前几个作为文本区域. 在阈 值变化过程中,MSER 的尺寸长时间保持不变. 在 处理模糊、低对比度的图片时,往往存在定位不精 确、误差较大的问题. 因此,文献 [19] 提出直接用 极值区域(Extremal regions, ER)作为文本候选区 域. 该方法检测图片中所有的极值区域 ER,而不 仅仅是 MSER 的子集,并把文字检测问题处理为 从 ER 集合中进行有效序列选择的问题,达到实时 检测效果. 考虑到获得的极值区域的数量过大会 对后续的文本分类精度产生影响,文献 [20] 提出 了对比极值区域(Contrasting extremal region, CER) 方法. CER 选取具有高对比度的极值区域,获得的 候选连通区域数量远小于 ER,候选范围大大缩 小,提高了算法的效率. 文献 [21] 提出颜色增强的 对比极值区域(Color-enhanced CER)方法,进一步利 用颜色空间中的信息滤除 CER 中的冗余像素和噪 声. Color-enhanced CER 具有视觉感知一致性且对 光照不敏感,更接近人眼对颜色的判断. 文献 [22] 提出了一种基于多通道光照均衡化的 MSER 算 法,解决了传统 MSER 算法在光照不均匀图片上 的文本漏检问题,同时该文献还提出了伪字符区 域过滤算法进行多特征融合,解决了传统 MSER 算法在复杂背景图片上的漏检问题. 随着自然场景图片内容的日趋复杂,往往出 现文本目标不属于 MSER 的情况,这限制了 MSER 方法的应用场景. 尽管 MSER 的检测准确率低于 深度学习方法,由于其具有较强的鲁棒性,且计算 成本低,该方法常被应用于其它复杂文本检测方 法的前期阶段,产生尽可能多的候选区域. 2.2 基于滑动检测窗的方法 该类方法设计滑动检测窗,利用窗格自上而 下扫描图像,并将每个窗格覆盖的图像区域视作 文本候选区域. 通过对该区域提取特征,分类器可 得出置信度值,通过阈值比较可实现定位和背景 区域分割. 考虑到文本大小和文本行长度多变的 情况,还可以用多尺度滑动窗口进行候选区域的 扫描. 文献 [23] 首先利用基础特征子对文本区域进 行建模,进而根据特征响应构建弱分类器. 这些弱 p q p q W (a) (b) (c) 图 2 笔划宽度的定义[13] . (a)一种典型的笔划;(b)笔划边界像素;(c)笔划束上的每个像素 Fig.2 Definition of the stroke width[13] : (a) a typical stroke; (b) a pixel on the boundary of the stroke; (c) each pixel along the ray · 1436 · 工程科学学报,第 42 卷,第 11 期