第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201801016 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180628.1622.004html 基于车内外视觉信息的行人碰撞预警方法 杨会成,朱文博,童英 (安徽工程大学电气工程学院,安徽芜湖241000) 摘要:行人碰撞预警系统通常依据行人检测与碰撞时间判断的方式为驾驶员提供预警信息。为了提供更加 可靠的危险判断依据,本文提出一种同时分析道路状况与驾驶员头部姿态的行人碰撞预警方法,用两个单目相 机分别获取车辆内外环境图像。通道特征检测器用于定位行人,根据单目视觉距离测量方法估计出行人与自 车间的纵向与横向距离。多任务级联卷积网络用于定位驾驶员面部特征点,通过求解多点透视问题获取头部 方向角以反映驾驶员注意状态。结合行人位置信息与驾驶员状态信息,本文构建模糊推理系统判断碰撞风险 等级。在实际路况下的实验结果表明.根据模糊系统输出的风险等级可以为预防碰撞提供有效的指导。 关键词:碰撞预警:内外信息:行人定位:驾驶员状态;单目视觉:通道特征:多任务级联卷积网络:模糊推理系统 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)04-0752-09 中文引用格式:杨会成,朱文博,童英.基于车内外视觉信息的行人碰撞预警方法智能系统学报,2019,14(4):752-760. 英文引用格式:YANG Huicheng,ZHU Wenbo,TONG Ying..Pedestrian collision warning system based on looking-in and looking out visual information analysis[J.CAAI transactions on intelligent systems,2019,14(4):752-760. Pedestrian collision warning system based on looking-in and looking-out visual information analysis YANG Huicheng,ZHU Wenbo,TONG Ying (College of Electrical Engineering,Anhui Polytechnic University,Wuhu 241000,China) Abstract:Pedestrian collision warning systems usually provide early warning for drivers based on the technologies of pedestrian detection and collision time measurement.To provide a more reliable basis for risk assessment,a pedestrian collision warning method that involves analyzing the road condition and driver's head pose simultaneously is proposed in this paper.Two monocular cameras are used to capture vehicle exterior and interior images,and a channel features detector is applied to locate pedestrians.The vertical and horizontal distances between pedestrians and ego-vehicle are estimated based on monocular vision distance measurement.The multi-task cascaded convolutional network is utilized for facial landmark detection.By solving a perspective-n-point(PnP)problem,the estimated head angles can reflect driver's attention states.By combining both pedestrian location information and driver's attention information,we im- plemented a fuzzy inference system to assess collision risk level.An experiment in real-world driving conditions demon- strated that the risk levels obtained from the fuzzy system are reliable and can provide guidance for collision avoidance. Keywords:collision warning;internal and external information;pedestrian positioning;driver states;monocular vision; channel features;multi-task cascaded convolutional network;fuzzy inference system 高级驾驶辅助系统(advanced driver assistance碰撞预警是ADAS的一个重要功能,碰撞预警系 system,ADAS)是目前车辆安全领域的研究热点, 统通常根据传感器获取的前方障碍物相对距离和 该系统通过车载传感器收集并分析车内外环境数 速度计算碰撞时间(time to collision.,TTC),可靠的 据,为驾驶员提供辅助信息并对危险进行提醒。 预警一般设置为潜在的碰撞前约2s的时间。目 收稿日期:2018-01-08.网络出版日期:2018-06-29 前应用的碰撞保护系统大多针对车辆间的碰撞, 基金项目:安徽省高校自然科学研究重点项目(KJ2018A0122) 通信作者:朱文博.E-mail:vembozhu@l63.com. 然而在人车碰撞事故中,没有保护装置的行人更
DOI: 10.11992/tis.201801016 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180628.1622.004.html 基于车内外视觉信息的行人碰撞预警方法 杨会成,朱文博,童英 (安徽工程大学 电气工程学院,安徽 芜湖 241000) 摘 要:行人碰撞预警系统通常依据行人检测与碰撞时间判断的方式为驾驶员提供预警信息。为了提供更加 可靠的危险判断依据,本文提出一种同时分析道路状况与驾驶员头部姿态的行人碰撞预警方法,用两个单目相 机分别获取车辆内外环境图像。通道特征检测器用于定位行人,根据单目视觉距离测量方法估计出行人与自 车间的纵向与横向距离。多任务级联卷积网络用于定位驾驶员面部特征点,通过求解多点透视问题获取头部 方向角以反映驾驶员注意状态。结合行人位置信息与驾驶员状态信息,本文构建模糊推理系统判断碰撞风险 等级。在实际路况下的实验结果表明,根据模糊系统输出的风险等级可以为预防碰撞提供有效的指导。 关键词:碰撞预警;内外信息;行人定位;驾驶员状态;单目视觉;通道特征;多任务级联卷积网络;模糊推理系统 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)04−0752−09 中文引用格式:杨会成, 朱文博, 童英. 基于车内外视觉信息的行人碰撞预警方法 [J]. 智能系统学报, 2019, 14(4): 752–760. 英文引用格式:YANG Huicheng, ZHU Wenbo, TONG Ying. Pedestrian collision warning system based on looking-in and lookingout visual information analysis[J]. CAAI transactions on intelligent systems, 2019, 14(4): 752–760. Pedestrian collision warning system based on looking-in and looking-out visual information analysis YANG Huicheng,ZHU Wenbo,TONG Ying (College of Electrical Engineering, Anhui Polytechnic University, Wuhu 241000, China) Abstract: Pedestrian collision warning systems usually provide early warning for drivers based on the technologies of pedestrian detection and collision time measurement. To provide a more reliable basis for risk assessment, a pedestrian collision warning method that involves analyzing the road condition and driver’s head pose simultaneously is proposed in this paper. Two monocular cameras are used to capture vehicle exterior and interior images, and a channel features detector is applied to locate pedestrians. The vertical and horizontal distances between pedestrians and ego-vehicle are estimated based on monocular vision distance measurement. The multi-task cascaded convolutional network is utilized for facial landmark detection. By solving a perspective-n-point (PnP) problem, the estimated head angles can reflect driver’s attention states. By combining both pedestrian location information and driver’s attention information, we implemented a fuzzy inference system to assess collision risk level. An experiment in real-world driving conditions demonstrated that the risk levels obtained from the fuzzy system are reliable and can provide guidance for collision avoidance. Keywords: collision warning; internal and external information; pedestrian positioning; driver states; monocular vision; channel features; multi-task cascaded convolutional network; fuzzy inference system 高级驾驶辅助系统 (advanced driver assistance system, ADAS) 是目前车辆安全领域的研究热点, 该系统通过车载传感器收集并分析车内外环境数 据,为驾驶员提供辅助信息并对危险进行提醒。 碰撞预警是 ADAS 的一个重要功能,碰撞预警系 统通常根据传感器获取的前方障碍物相对距离和 速度计算碰撞时间 (time to collision, TTC),可靠的 预警一般设置为潜在的碰撞前约 2 s 的时间。目 前应用的碰撞保护系统大多针对车辆间的碰撞, 然而在人车碰撞事故中,没有保护装置的行人更 收稿日期:2018−01−08. 网络出版日期:2018−06−29. 基金项目:安徽省高校自然科学研究重点项目 (KJ2018A0122). 通信作者:朱文博. E-mail:vembozhu@163.com. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·753· 容易受到致命的伤害。统计数据表明,在我国城 归森林的方法和基于深度学习的方法o 市道路中,每年死于交通事故的人口中有接近 车辆的行驶状态很大程度上取决于驾驶员是 50%为身处车外的行人。因此研究行人碰撞预警 否注意到行人,通过监控驾驶员的注意状态,可 系统,在可能的碰撞发生前对驾驶员做出提醒, 以更加准确地衡量碰撞危险。结合对经验丰富的 具有重要的现实意义。 驾驶员驾车行为的研究,本文提出一种基于车内 行人碰撞预警的实现广泛采用视觉传感器获 外视觉信息的行人碰撞预警方法,将行人状态分 取行人位置信息,根据相对距离和车速做出判 析和驾驶员状态分析同时加入模糊决策过程。本 断。由于姿态与外形的多样性,行人检测一直是 文的方法使用两个单目相机分别获取车外行人方 计算机视觉领域的一个重要研究课题。行人检测 位信息和车内驾驶员头部姿态信息,其中外部信 的经典方法有Viola等提出的Haar-like特征和 息处理使用通道特征检测器定位行人,根据单目 级联分类器,Dalal等21提出的HOG特征结合 视觉测距原理估计距离与角度,内部信息处理使 SVM分类器,以及Felzenszwalb等I)提出的可变 用级联回归方法定位面部特征点,根据EPnP算 形部件模型(deformable part model,.DPM)。卷积 法估计驾驶员头部姿态,利用模糊推理系统融合 神经网络(convolutional neural networks,CNN)由 内外信息对碰撞风险等级进行评估,可以满足系 于其强大的特征学习和表达能力,在计算机视觉 统决策的准确性和时效性。 领域得到了广泛的应用。深度学习目标检测方法 1行人位置估计 著名的有Girshick等4提出的基于区域建议的卷 积神经网络模型(region CNN,R-CNN),通过CNN 利用通道特征检测器,可以从车辆前方的道 完成特征提取与目标定位。 路监控视频中判断每一帧是否存在行人,并提取 根据美国高速交通安全管理局NHTSA)的 出行人在图像中的位置,进一步恢复出其在真实场 统计6,有超过80%的交通事故责任与驾驶员相 景中的相对距离与角度,作为碰撞风险判断的依据。 关,其中注意力不集中是引发事故的主要原因。 聚合通道特征(aggregated channel features, 此外,预警系统的有效性受到驾驶员反应时间的 ACF)检测器最早由Dollar等I提出,其结构如 影响,驾驶员注意力的差异会导致对危险的反应 图1所示。检测器的特征构造利用色彩和梯度信 时间不同,精确的数值判断有时反而会给出错误 息,选取LUV色彩空间3个通道、6个方向上的 的预警。近年来,研究人员利用内外视觉(looking- 梯度直方图通道和1个梯度幅值通道共10个通 in and looking-out,LiLo)框架16实现车辆安全系 道图像结合而成。对每个通道图像上互不重叠 统性能的提升,在检测车辆前方障碍物的基础上, 的2×2的块内像素求和,通道的输出为输入通道 增加了对驾驶员状态的监测。该框架利用传感器 每个图像块内像素聚合构成的特征池。分类器 同时获取车辆周围环境、车辆运动状态以及驾驶 由4096棵深度为4的决策树通过软级联(soft 员行为,系统同时理解车辆外部和内部信息并据 cascade)方式31构造而成,分类器的训练采用 此对潜在危险做出判断。在这一框架基础下的部 RealBoost算法在Caltech行人数据集上进行。 分工作1网特别研究了驾驶员对于道路行人的认知。 驾驶员状态的监控对于提高行车安全有着重 要的促进作用,驾驶员的注意力与视线方向及头 计算通道特征 部姿势有着内在的联系,因此眼睛或头部的状态 LUV Grad Hist 检测技术广泛用于注意分散监测。在实际驾驶条 件下,使用非接触式方式进行可靠的视线方向估 计非常具有挑战性。就危险预警而言,头部偏移 向量化 情况下视线的分散程度相对更加严重,因此头部 … 姿态也可以作为驾驶员注意状态判断的可靠指 分类器(boosted tree) 标。在实际应用中,头部姿态的获取普遍采用 非接触式的基于视觉的方法,通常需要先建立面 部形状模型以定位面部特征点,根据特征点间的 几何关系还原空间姿态。面部特征点定位的经典 行人 非行人 方法是Cootes等II提出的主动形状模型(active 图1通道特征检测器 shape model,.ASM),近年来广泛地使用有基于回 Fig.1 Channel features detector
容易受到致命的伤害。统计数据表明,在我国城 市道路中,每年死于交通事故的人口中有接近 50% 为身处车外的行人。因此研究行人碰撞预警 系统,在可能的碰撞发生前对驾驶员做出提醒, 具有重要的现实意义。 行人碰撞预警的实现广泛采用视觉传感器获 取行人位置信息,根据相对距离和车速做出判 断。由于姿态与外形的多样性,行人检测一直是 计算机视觉领域的一个重要研究课题。行人检测 的经典方法有 Viola 等 [1] 提出的 Haar-like 特征和 级联分类器,Dalal 等 [ 2 ] 提出的 HOG 特征结合 SVM 分类器,以及 Felzenszwalb 等 [3] 提出的可变 形部件模型 (deformable part model, DPM)。卷积 神经网络 (convolutional neural networks, CNN) 由 于其强大的特征学习和表达能力,在计算机视觉 领域得到了广泛的应用。深度学习目标检测方法 著名的有 Girshick 等 [4-5] 提出的基于区域建议的卷 积神经网络模型 (region CNN, R-CNN),通过 CNN 完成特征提取与目标定位。 根据美国高速交通安全管理局 (NHTSA) 的 统计[6] ,有超过 80% 的交通事故责任与驾驶员相 关,其中注意力不集中是引发事故的主要原因。 此外,预警系统的有效性受到驾驶员反应时间的 影响,驾驶员注意力的差异会导致对危险的反应 时间不同,精确的数值判断有时反而会给出错误 的预警。近年来,研究人员利用内外视觉 (lookingin and looking-out, LiLo) 框架[16] 实现车辆安全系 统性能的提升,在检测车辆前方障碍物的基础上, 增加了对驾驶员状态的监测。该框架利用传感器 同时获取车辆周围环境、车辆运动状态以及驾驶 员行为,系统同时理解车辆外部和内部信息并据 此对潜在危险做出判断。在这一框架基础下的部 分工作[17-18] 特别研究了驾驶员对于道路行人的认知。 驾驶员状态的监控对于提高行车安全有着重 要的促进作用,驾驶员的注意力与视线方向及头 部姿势有着内在的联系,因此眼睛或头部的状态 检测技术广泛用于注意分散监测。在实际驾驶条 件下,使用非接触式方式进行可靠的视线方向估 计非常具有挑战性。就危险预警而言,头部偏移 情况下视线的分散程度相对更加严重,因此头部 姿态也可以作为驾驶员注意状态判断的可靠指 标 [7]。在实际应用中,头部姿态的获取普遍采用 非接触式的基于视觉的方法,通常需要先建立面 部形状模型以定位面部特征点,根据特征点间的 几何关系还原空间姿态。面部特征点定位的经典 方法是 Cootes 等 [8] 提出的主动形状模型 (active shape model, ASM),近年来广泛地使用有基于回 归森林的方法[9] 和基于深度学习的方法[10-11]。 车辆的行驶状态很大程度上取决于驾驶员是 否注意到行人,通过监控驾驶员的注意状态,可 以更加准确地衡量碰撞危险。结合对经验丰富的 驾驶员驾车行为的研究,本文提出一种基于车内 外视觉信息的行人碰撞预警方法,将行人状态分 析和驾驶员状态分析同时加入模糊决策过程。本 文的方法使用两个单目相机分别获取车外行人方 位信息和车内驾驶员头部姿态信息,其中外部信 息处理使用通道特征检测器定位行人,根据单目 视觉测距原理估计距离与角度,内部信息处理使 用级联回归方法定位面部特征点,根据 EPnP 算 法估计驾驶员头部姿态,利用模糊推理系统融合 内外信息对碰撞风险等级进行评估,可以满足系 统决策的准确性和时效性。 1 行人位置估计 利用通道特征检测器,可以从车辆前方的道 路监控视频中判断每一帧是否存在行人,并提取 出行人在图像中的位置,进一步恢复出其在真实场 景中的相对距离与角度,作为碰撞风险判断的依据。 聚合通道特征 (aggregated channel features, ACF) 检测器最早由 Dollar 等 [12] 提出,其结构如 图 1 所示。检测器的特征构造利用色彩和梯度信 息,选取 LUV 色彩空间 3 个通道、6 个方向上的 梯度直方图通道和 1 个梯度幅值通道共 10 个通 道图像结合而成。对每个通道图像上互不重叠 的 2×2 的块内像素求和,通道的输出为输入通道 每个图像块内像素聚合构成的特征池。分类器 由 4 096 棵深度为 4 的决策树通过软级联 (soft cascade) 方式[ 1 3 ] 构造而成,分类器的训练采用 RealBoost 算法在 Caltech 行人数据集上进行。 ... ... 计算通道特征 向量化 分类器 (boosted tree) 行人 非行人 LUV Grad Hist 图 1 通道特征检测器 Fig. 1 Channel features detector 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·753·
·754· 智能系统学报 第14卷 为了提高多尺度检测的速度,利用相邻尺度 由图2可以得到B=a-y,y=arctan 从而 特征估计的方法构造快速特征金字塔。定义 纵向距离可以表示为 RL,s)为原始图像I在尺度s处的特征采样,2为 h h 通道变换,文献[10]通过对INRIA行人数据集图 Y=- (3) tanp tan(a-arctan) 片在不同尺度下提取的通道特征进行统计分析, 发现尺度s的通道特征C:与原始图像通道特征 根据比例关系 00_0Q P0=Pe,由0g= C=2()之间满足以下关系: V002+0Q=√FP+y2,0Q为纵向距离,PQ=x, Cs≈R(C,so (1) 可以得到横向距离: 式中如为通道估计系数。那么只要间隔一定尺 度由原始图像计算通道特征C,=2(R(L,s),s∈ POY=- X= 00' v2+y2 sin(a-arctan) 1小中间尺度的特征C,就可以根据其最 (4) (u-uo)h 近尺度的已知特征进行较为精确的估算: Vf2+(v-vo)2 sin(a-arctan) C=kCse/el,g (2) 摄像机距地面高度h和俯仰角α通过直接测 这样可以大幅减少常规方法在每个尺度都计算图 量得到,本文的实验环境下h=1063mm,a=9°, 像特征所需的计算开销。 相机焦距f和像素坐标系原点坐标(,o)为相机 对于输入的640像素×480像素大小的待检测 内部参数,通过相机标定可以得到f=624.8583, 道路图像,以间隔8个尺度的通道图像精确计算, (,%)=(333.0919,222.1107)。根据单目视觉定位 其余尺度的通道图像近似估算的方式构造特征金 原理,选取检测到的行人边框下边界的中点为 字塔,在不同尺度的特征图上用64×32的滑动窗 参考点,可以从单帧静态图像中估计出行人与车 口遍历,用训练好的分类器对每个候选区域进行 辆间的纵向距离(Y_distance)与横向距离(Xdis 判断,输出包含行人的窗口边框坐标及相应的分 tance)。道路图像中的行人检测与距离估计结果 类得分,最后用非极大值抑制(non-maximum sup 如图3所示。通道特征检测器选取对行人具有良 pression,.NMS)消除重叠的窗口。 单目视觉距离估计模型如图2所示,Xw、Yw、Zw 好表征效果的梯度与色彩特征,结合邻近特征估 为世界坐标系,相机光心在O点,焦距为f。相机 计的方法,兼顾了检测速度与精度。上述行人位 光轴c与成像平面交于点0,对应的像素坐标系 置估计方法在CPU下就可以达到14fs的处理 原点坐标为(o,o)。世界坐标系中的点Q(O,)在 速度,可以满足有效预警中对于目标实时定位的 图像坐标系中的投影点为Q(O,y,对应的像素坐 要求。 标为(,v);点P(XY)在图像坐标系中的投影点为 P(x,y),对应的像素坐标为(u,)。相机距地面的 高度为h,光轴与水平方向的夹角为a,即相机的 俯仰角。点Q与光心的连线与水平方向的夹角 为B,与光轴的夹角为y。 0 图3行人检测与距离估计结果 Fig.3 Pedestrian detection and distance estimation 2驾驶员头部姿态估计 0(0,) 为了计算头部姿态,首先需要建立面部形状 P(X) 模型,得到精确的面部特征点坐标。再根据面部 图2单目视觉距离估计模型 几何模型,利用特征点的几何位置和几何约束关 Fig.2 Monocular vision distance estimation model 系可以快速估算出头部姿态的方向参数
R(I,s) Ω Cs C = Ω(I) 为了提高多尺度检测的速度,利用相邻尺度 特征估计的方法构造快速特征金字塔。定义 为原始图像 I 在尺度 s 处的特征采样, 为 通道变换,文献 [10] 通过对 INRIA 行人数据集图 片在不同尺度下提取的通道特征进行统计分析, 发现尺度 s 的通道特征 与原始图像通道特征 之间满足以下关系: Cs ≈ R(C,s)·s −λΩ (1) λΩ Cs = Ω(R(I,s)), s ∈ {1, 1 2 , 1 4 ,··· } Cs 式中 为通道估计系数。那么只要间隔一定尺 度由原始图像计算通道特征 ,中间尺度的特征 就可以根据其最 近尺度的已知特征进行较为精确的估算: Cs ′ = R(Cs ,s/s ′ )(s/s ′ ) −λΩ , s ′ ∈ {1, 1 2 , 1 4 ,··· } (2) 这样可以大幅减少常规方法在每个尺度都计算图 像特征所需的计算开销。 对于输入的 640 像素×480 像素大小的待检测 道路图像,以间隔 8 个尺度的通道图像精确计算, 其余尺度的通道图像近似估算的方式构造特征金 字塔,在不同尺度的特征图上用 64×32 的滑动窗 口遍历,用训练好的分类器对每个候选区域进行 判断,输出包含行人的窗口边框坐标及相应的分 类得分,最后用非极大值抑制 (non-maximum suppression, NMS) 消除重叠的窗口。 XW、YW、ZW O f c O ′ (u0, v0) Q(O,Y) Q ′ (O, y) (u ′ , v) P(X,Y) P ′ (x, y) (u, v) h α Q β γ 单目视觉距离估计模型如图2所示, 为世界坐标系,相机光心在 点,焦距为 。相机 光轴 与成像平面交于点 ,对应的像素坐标系 原点坐标为 。世界坐标系中的点 在 图像坐标系中的投影点为 ,对应的像素坐 标为 ;点 在图像坐标系中的投影点为 ,对应的像素坐标为 。相机距地面的 高度为 ,光轴与水平方向的夹角为 ,即相机的 俯仰角。点 与光心的连线与水平方向的夹角 为 ,与光轴的夹角为 。 O O' Q (O, Y) P (X, Y) Q' P' h u v x y XW ZW YW c f α γ β 图 2 单目视觉距离估计模型 Fig. 2 Monocular vision distance estimation model β = α−γ γ = arctan y f 由图 2 可以得到 , 。从而 纵向距离可以表示为 Y = h tanβ = h tan(α−arctan y f ) (3) OQ PQ = OQ′ P′Q′ OQ′ = √ OO′2 +O′Q′2 = √ f 2 +y 2 OQ P ′Q ′ = x 根据比例关系 , 由 , 为纵向距离, , 可以得到横向距离: X = P ′Q ′ OQ′ Y = x √ f 2 +y 2 h sin(α−arctan y f ) = (u−u0)h √ f 2 +(v−v0) 2 sin(α−arctan y f ) (4) h α h = 1 063 α = 9 f (u0, v0) f = 624.858 3 (u0, v0) = (333.091 9,222.110 7) 摄像机距地面高度 和俯仰角 通过直接测 量得到,本文的实验环境下 mm, °。 相机焦距 和像素坐标系原点坐标 为相机 内部参数,通过相机标定可以得到 , 。根据单目视觉定位 原理[14] ,选取检测到的行人边框下边界的中点为 参考点,可以从单帧静态图像中估计出行人与车 辆间的纵向距离 (Y_distance) 与横向距离 (X_distance)。道路图像中的行人检测与距离估计结果 如图 3 所示。通道特征检测器选取对行人具有良 好表征效果的梯度与色彩特征,结合邻近特征估 计的方法,兼顾了检测速度与精度。上述行人位 置估计方法在 CPU 下就可以达到 14 f/s 的处理 速度,可以满足有效预警中对于目标实时定位的 要求。 Y_distanc=8.49 me X_distanc=2.85 me 图 3 行人检测与距离估计结果 Fig. 3 Pedestrian detection and distance estimation 2 驾驶员头部姿态估计 为了计算头部姿态,首先需要建立面部形状 模型,得到精确的面部特征点坐标。再根据面部 几何模型,利用特征点的几何位置和几何约束关 系可以快速估算出头部姿态的方向参数。 ·754· 智 能 系 统 学 报 第 14 卷
第4期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·755· 多任务级联卷积网络(multi-task cascaded con- volutional networks,MTCNN)9是目前速度与精度 (6) 最好的人脸检测器之一。MTCNN由3个卷积网 同理,相机坐标系下对应的参考点可以表示为 络级联构成,分类器级联可以大幅提升检测速 度,利用卷积网络提取的更加高级的特征可以提 A=2时 (7) 高分类的准确性,此外由于卷积网络更好的区分 能力,级联框架的层数也会相应地减少,从而降 根据相机成像投影关系,每个控制点c的三 低整体的计算开销。同时利用卷积神经网络的多 维坐标(,,与其在图像平面上的投影点 任务学习能力,实现人脸及特征点的联合检测, (4,v)满足 网络输出脸部边框坐标和左眼中心、右眼中心、 0 鼻尖和嘴巴两端5个特征点的坐标。 Vi (8) 在计算机视觉中,物体姿态是指其相对相机 式中w.为比例投影系数。进一步可以得到 的方向与位置。由于安置在车内的相机镜头正对 驾驶员面部,因而根据头部姿态可以判断驾驶员 ∑fx+a(C:-4)=0 的注意方向。头部姿态估计可以视为多点透视 (9) (perspective-n-point,PnP)问题,根据2D-3D特征点 afx+aif(cy-vi=0 间的投影关系求解头部姿态参数。 针孔相机模型如图4所示。O-YZ为相机坐 考虑n个参考点,式(9)可以表示为线性方程 标系,F0-UVW为世界坐标系坐标,F:为头部三维 组Mx=0,其中4个虚拟控制点共12个未知变 模型上的某个特征点,其对应于图像平面上的特 量,M为2n×12矩阵,x=[c,c5,c,cT为12维未 征点为p(,)。f、£为相机焦距,(cx,c)为相机 知向量。式(9)的解为矩阵M的核空间,表示为 光心。相机坐标系与世界坐标系之间的对应关系 x=By,n=1,2,3,4,式中y:为矩阵M的右奇异 如下所示: 向量,可由12×12MTM矩阵的零特征向量求得,B U 的取值由使得逆投影误差最小的N值确定。得 12 3 N 到虚拟控制点坐标后便可恢复出参考点在相机坐 W 1 T22 31 T32 r33 标系中的坐标,利用SVD分解可以得到旋转矩阵。 式中:R为旋转矩阵,可以表示头部姿态;T为平 将旋转矩阵转换为姿态角pitch、yaw和roll, 移向量。 可以直观地表示头部朝向,其变换关系如下: pitch=arctan2(r32,r33) 世界坐标系 yaw arctan2(-r31,+) (10) F roll arctan2(r2i.r) 本文使用MTCNN输出的左右眼中心、鼻 尖、左右嘴角5个特征点作为参考点,估计驾驶 员头部姿态角,结果如图5所示。 相机坐标系 图像坐标系 图4头部三维模型到图像平面特征点的投影 Fig.4 Projection of 3D model of the head to the feature points of image plane 本文使用EPnP算法I求解姿态参数。EPnP 算法利用4个虚拟控制点的线性加权表示实际参 考点在相机坐标系下的坐标,4个虚拟控制点为 c,=1,2,3,4,则世界坐标系中的参考点F:可以表 图5驾驶员头部姿态估计 示为 Fig.5 Head pose estimation of the driver
多任务级联卷积网络 (multi-task cascaded convolutional networks, MTCNN)[9] 是目前速度与精度 最好的人脸检测器之一。MTCNN 由 3 个卷积网 络级联构成,分类器级联可以大幅提升检测速 度,利用卷积网络提取的更加高级的特征可以提 高分类的准确性,此外由于卷积网络更好的区分 能力,级联框架的层数也会相应地减少,从而降 低整体的计算开销。同时利用卷积神经网络的多 任务学习能力,实现人脸及特征点的联合检测, 网络输出脸部边框坐标和左眼中心、右眼中心、 鼻尖和嘴巴两端 5 个特征点的坐标。 在计算机视觉中,物体姿态是指其相对相机 的方向与位置。由于安置在车内的相机镜头正对 驾驶员面部,因而根据头部姿态可以判断驾驶员 的注意方向。头部姿态估计可以视为多点透视 (perspective-n-point, PnP) 问题,根据 2D-3D 特征点 间的投影关系求解头部姿态参数。 Fi pi(ui , vi) fx、fy (cx , cy) 针孔相机模型如图 4 所示。O-XYZ 为相机坐 标系,F0-UVW 为世界坐标系坐标, 为头部三维 模型上的某个特征点,其对应于图像平面上的特 征点为 。 为相机焦距, 为相机 光心。相机坐标系与世界坐标系之间的对应关系 如下所示: X Y Z = [R| T ] U V W 1 , R = r11 r12 r13 r21 r22 r23 r31 r32 r33 , T = tx ty tz (5) 式中:R 为旋转矩阵,可以表示头部姿态; T 为平 移向量。 F0 Fi O X Z Y pi x y R, T c 相机坐标系 图像坐标系 世界坐标系 U V W 图 4 头部三维模型到图像平面特征点的投影 Fig. 4 Projection of 3D model of the head to the feature points of image plane cj = 1,2,3,4 Fi 本文使用 EPnP 算法[15] 求解姿态参数。EPnP 算法利用 4 个虚拟控制点的线性加权表示实际参 考点在相机坐标系下的坐标,4 个虚拟控制点为 ,则世界坐标系中的参考点 可以表 示为 Fi = ∑4 j=1 αi jc F j , ∑4 j=1 αi j = 1 (6) 同理,相机坐标系下对应的参考点可以表示为 pi = ∑4 j=1 αi jc p j (7) c p j (x p j , y p j , z p j ) (ui , vi) 根据相机成像投影关系,每个控制点 的三 维坐标 与其在图像平面上的投影点 满足 ωn ui vi 1 = fx 0 cx 0 fy cy 0 0 1 ∑4 j=1 αi j x p j y p j z p j (8) 式中 ωn 为比例投影系数。进一步可以得到 ∑4 j=1 αi j fx x p j +αi j(cx −ui)z p j = 0 ∑4 j=1 αi j fy x p j +αi j(cy −vi)z p j = 0 (9) Mx = 0 x = [c p 1 , c p 2 , c p 3 , c p 4 ] T x = ∑n i=1 βivi , n = 1,2,3,4 vi MTM βi 考虑 n 个参考点,式 (9) 可以表示为线性方程 组 ,其中 4 个虚拟控制点共 12 个未知变 量,M 为 2n×12 矩阵, 为 12 维未 知向量。式 (9) 的解为矩阵 M 的核空间,表示为 ,式中 为矩阵 M 的右奇异 向量,可由 12×12 矩阵的零特征向量求得, 的取值由使得逆投影误差最小的 N 值确定。得 到虚拟控制点坐标后便可恢复出参考点在相机坐 标系中的坐标,利用 SVD 分解可以得到旋转矩阵。 将旋转矩阵转换为姿态角 pitch、yaw 和 roll, 可以直观地表示头部朝向,其变换关系如下: pitch = arctan2(r32, r33) yaw = arctan2(−r31, √ r 2 32 +r 2 33) roll = arctan2(r21, r11) (10) 本文使用 MTCNN 输出的左右眼中心、鼻 尖、左右嘴角 5 个特征点作为参考点,估计驾驶 员头部姿态角,结果如图 5 所示。 Pitch=−8.07 Yaw=2.56 Roll=−1.85 图 5 驾驶员头部姿态估计 Fig. 5 Head pose estimation of the driver 第 4 期 杨会成,等:基于车内外视觉信息的行人碰撞预警方法 ·755·
·756· 智能系统学报 第14卷 3碰撞风险评估 车辆间的纵向距离(Y_distance)和横向距离 (Y distance),驾驶员注意方向信息表现在头部垂 碰撞保护系统通常根据传感器获取的道路障 直方向转角(pitch)和水平方向转角(yaw)。模糊 碍物距离和速度信息计算碰撞时间(time to colli- 推理使用Mamdani规则,如式(11)所示: sion,TTC),当碰撞时间小于阈值时做出警告。然 R:if xi is Ai,x is A,....xi A 而受到行车环境、驾驶员精神及身体状态的影 (11) then yi=B 响,驾驶员对道路危险的反应时间存在差异,精 式中:为输入变量;y为第i条规则对应的输 确的数值分析有时反而会引起错误的预警。实际 出;A和B为模糊集。 道路中,经验丰富的驾驶员并不会精确计算距离 为了降低论证的复杂性,取行人的纵向距离 或碰撞时间,而是使用语义信息表达路况,例如 Y_distance与横向距离Y distance,驾驶员头部水 用远、中、近、很近表示前方物体距离,用很快、 平转角yaw3个输入参数构建模糊推理系统。输 快、适中、慢表示当前车速等。可以近似认为,驾 入参数Y distance与Y distance模糊化使用三角 驶员对于车辆前方潜在碰撞风险的估计都是基于 隶属度函数,其中Y distance的模糊集论域为[O, 一系列if-then规则做出的决策,并且判断结果在 20],Y distance的模糊集论域为[0,5],在论域上 大部分情况下已足够准确。 的取值均为{close,.mid,far},如图6(a)和图6(b)所 本文构建一种基于道路和驾驶员信息的模糊 示。输入参数yaw模糊化使用高斯隶属度函数 推理系统,对输入信息进行决策级融合输出碰撞 模糊集论域为[-30,30],在论域上的取值为{left, 风险估计,包括低风险(low-risk)、中等风险(mid- center,right},如图6(c)所示。系统输出参数 risk)、高风险(high-risk)和极高风险(very-high- Risk设置{low,mid,high,veryhigh}4个等级,模糊 rsk)4个等级。系统的输入为道路状态信息和驾 集论域设为0,1],使用高斯隶属度函数,如图6(d) 驶员状态信息,式中道路状态信息表现在行人与 所示。 1.0 close far 1.0 close mid 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0 0 10 15 20 2 3 y distance Y distance (a)行人纵而距离Y_distance (b)行人纵向距离Y distance left center 1.0 right 1.0ow mid high veryhigh 0.8 0.8 6 0.4 积0.4 0.2 0.2 0 -30-20-100102030 0 0.2 0.4 0.6 0.8 1.0 Yaw Risk (c)驾驶员头部水平转角Yaw (d风险程度Risk 图6模糊系统输入输出隶属度函数 Fig.6 Input/output membership functions of fuzzy system 根据Mamdani规则构建模糊推理规则,共设 数值可以判断出对应的碰撞风险等级。由此构建 置27条模糊规则,涵盖了输入输出参数在论域上 的模糊推理系统通过对车内外环境下的多种输入 的所有取值,具体如表1所示。 参数的模糊融合,可以为人车碰撞事故的预警提 利用重心法进行解模糊化,根据系统输出的 供一定的指导
3 碰撞风险评估 碰撞保护系统通常根据传感器获取的道路障 碍物距离和速度信息计算碰撞时间 (time to collision, TTC),当碰撞时间小于阈值时做出警告。然 而受到行车环境、驾驶员精神及身体状态的影 响,驾驶员对道路危险的反应时间存在差异,精 确的数值分析有时反而会引起错误的预警。实际 道路中,经验丰富的驾驶员并不会精确计算距离 或碰撞时间,而是使用语义信息表达路况,例如 用远、中、近、很近表示前方物体距离,用很快、 快、适中、慢表示当前车速等。可以近似认为,驾 驶员对于车辆前方潜在碰撞风险的估计都是基于 一系列 if-then 规则做出的决策,并且判断结果在 大部分情况下已足够准确。 本文构建一种基于道路和驾驶员信息的模糊 推理系统,对输入信息进行决策级融合输出碰撞 风险估计,包括低风险 (low-risk)、中等风险 (midrisk)、高风险 (high-risk) 和极高风险 (very-highrisk) 4 个等级。系统的输入为道路状态信息和驾 驶员状态信息,式中道路状态信息表现在行人与 车辆间的纵向距 离 (Y_distance ) 和横向距 离 (X_distance),驾驶员注意方向信息表现在头部垂 直方向转角 (pitch) 和水平方向转角 (yaw)。模糊 推理使用 Mamdani 规则,如式 (11) 所示: R i : if x1 is A i 1 , x2 is A i 2 , ··· , xk is A i k then y i = B i (11) xk y i A i B i 式中: 为输入变量; 为第 i 条规则对应的输 出; 和 为模糊集。 为了降低论证的复杂性,取行人的纵向距离 Y_distance 与横向距离 X_distance,驾驶员头部水 平转角 yaw 3 个输入参数构建模糊推理系统。输 入参数 Y_distance 与 X_distance 模糊化使用三角 隶属度函数,其中 Y_distance 的模糊集论域为 [0, 20],X_distance 的模糊集论域为 [0, 5],在论域上 的取值均为{close, mid, far},如图 6(a) 和图 6(b) 所 示。输入参数 yaw 模糊化使用高斯隶属度函数, 模糊集论域为 [-30, 30],在论域上的取值为{left, center, right},如图 6(c) 所示。系统输出参数 Risk 设置{low, mid, high, veryhigh}4 个等级,模糊 集论域设为 [0, 1],使用高斯隶属度函数,如图 6(d) 所示。 (a) 行人纵向距离 Y_distance 0 10 15 20 5 Y_distance 0 0.2 0.4 0.6 0.8 1.0 隶属度 close mid far (b) 行人纵向距离 X_distance 0 2 3 4 5 1 X_distance 0 0.2 0.4 0.6 0.8 1.0 隶属度 close mid far (c) 驾驶员头部水平转角 Yaw −30 −20 −10 0 10 20 30 Yaw 0 0.2 0.4 0.6 0.8 1.0 隶属度 left center right (d) 风险程度 Risk 0 0.4 0.6 0.8 1.0 0.2 Risk 0 0.2 0.4 0.6 0.8 1.0 隶属度 low mid high veryhigh 图 6 模糊系统输入输出隶属度函数 Fig. 6 Input/output membership functions of fuzzy system 根据 Mamdani 规则构建模糊推理规则,共设 置 27 条模糊规则,涵盖了输入输出参数在论域上 的所有取值,具体如表 1 所示。 利用重心法进行解模糊化,根据系统输出的 数值可以判断出对应的碰撞风险等级。由此构建 的模糊推理系统通过对车内外环境下的多种输入 参数的模糊融合,可以为人车碰撞事故的预警提 供一定的指导。 ·756· 智 能 系 统 学 报 第 14 卷