第16卷第1期 智能系统学报 Vol.16 No.1 2021年1月 CAAI Transactions on Intelligent Systems Jan.2021 D0L:10.11992/tis.202012014 基于风格转换的无监督聚类行人重识别 张智,毕晓君2 (1.哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001;2.中央民族大学信息工程学院,北京100081) 摘要:无监督行人重识别中源域与目标域间的巨大差异性是影响模型性能的最关键因素。基于聚类的无监 督行人重识别方法挖掘目标域数据间的相似性,以此缓解该问题,但仍未消除域间差异性。本文提出一种基于 风格转换的无监督聚类行人重识别方法。首先,针对基于聚类方法的模型存在受域间差异性影响的问题,将一 种基于生成对抗网络的风格转换方法引入到聚类方法模型中,将源域数据转换为目标域风格数据,直接减小域 间差异性,提升模型的识别性能。其次,针对风格转换模型的生成器存在转换尺度单一以及特征信息传递效率 低的问题,使用一种新型残差块替换原始残差块并将其引入到生成器上采样和下采样中,形成多特征尺度转换 以及信息传递效率高的生成器,提升风格转换效果,降低域间差异性,进一步提升整体模型的识别效果。在 Market15:01以及Duke-MTMC-reID数据集上对所提的算法进行实验,结果表明改进方法取得了更好的识别效果。 关键词:机器视觉;行人重识别;无监督;聚类;风格转换;生成对抗网络;残差块:跨域 中图分类号:TP391文献标志码:A文章编号:1673-4785(2021)01-0048-09 中文引用格式:张智,毕晓君.基于风格转换的无监督聚类行人重识别J智能系统学报,2021,16(1):48-56. 英文引用格式:ZHANG Zhi,BI Xiaojun..Clustering approach based on style transfer for unsupervised person re-identificationJ CAAI transactions on intelligent systems,2021,16(1):48-56 Clustering approach based on style transfer for unsupervised person re-identification ZHANG Zhi',BI Xiaojun? (1.College of Information and Communication Engineering,Harbin Engineering University,Harbin 150001,China;2.School of In- formation Engineering,Minzu University of China,Beijing 100081,China) Abstract:The substantial difference between the source and target domains is the most crucial factor affecting the per- formance of unsupervised person re-identification models.The clustering-based unsupervised person re-identification method alleviates the problem to a certain extent by mining the similarity between the target domain,but it does not funda- mentally eliminate the discrepancy between the domains.This paper proposes a clustering approach based on cross-do- main style transfer for unsupervised pedestrian re-identification.First,to avoid the difference between domains in cluster- ing-based unsupervised person re-identification models,the across-domain style transfer method based on a generative ad- versarial network is introduced into the clustering process.It transfers the source domain data to the target domain style data,which directly reduces the difference between domains and improves the recognition effect of the model.Second,the generator of cross-domain style transfer model has a single transfer scale and low efficiency of characteristics information transfer.A new type of residual block is proposed to replace the original residual block;then,it is inserted into the generat- or to achieve up-sampling and down-sampling.The specific generator has more characteristics of the scale transfer,and it transmits information more effectively.The cross-domain style transfer model can better transfer the style of the source and target domains,further reduce the difference between the two domains,and improve the recognition effect of the overall model.Extensive experiments were implemented on Market1501 and Duke-MTMC-Reid datasets to examine the pro- posed method,and the results showed that the proposed improved method achieved a better recognition effect. Keywords:machine vision;pedestrian re-identification;unsupervised;clustering;style transformation;generative ad- versarial networks;residual block:cross domain 行人重识别是利用计算机视觉技术来判断无 收稿日期:2020-12-07. 通信作者:毕晓君.E-mail:bixiaojun(@hrbeu..edu.cn 视角交叠摄像头间是否存在相同行人的技术。行
DOI: 10.11992/tis.202012014 基于风格转换的无监督聚类行人重识别 张智1 ,毕晓君2 (1. 哈尔滨工程大学 信息与通信工程学院,黑龙江 哈尔滨 150001; 2. 中央民族大学 信息工程学院,北京 100081) 摘 要:无监督行人重识别中源域与目标域间的巨大差异性是影响模型性能的最关键因素。基于聚类的无监 督行人重识别方法挖掘目标域数据间的相似性,以此缓解该问题,但仍未消除域间差异性。本文提出一种基于 风格转换的无监督聚类行人重识别方法。首先,针对基于聚类方法的模型存在受域间差异性影响的问题,将一 种基于生成对抗网络的风格转换方法引入到聚类方法模型中,将源域数据转换为目标域风格数据,直接减小域 间差异性,提升模型的识别性能。其次,针对风格转换模型的生成器存在转换尺度单一以及特征信息传递效率 低的问题,使用一种新型残差块替换原始残差块并将其引入到生成器上采样和下采样中,形成多特征尺度转换 以及信息传递效率高的生成器,提升风格转换效果,降低域间差异性,进一步提升整体模型的识别效果。在 Market1501 以及 Duke-MTMC-reID 数据集上对所提的算法进行实验,结果表明改进方法取得了更好的识别效果。 关键词:机器视觉;行人重识别;无监督;聚类;风格转换;生成对抗网络;残差块;跨域 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2021)01−0048−09 中文引用格式:张智, 毕晓君. 基于风格转换的无监督聚类行人重识别 [J]. 智能系统学报, 2021, 16(1): 48–56. 英文引用格式:ZHANG Zhi, BI Xiaojun. Clustering approach based on style transfer for unsupervised person re-identification[J]. CAAI transactions on intelligent systems, 2021, 16(1): 48–56. Clustering approach based on style transfer for unsupervised person re-identification ZHANG Zhi1 ,BI Xiaojun2 (1. College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China; 2. School of Information Engineering, Minzu University of China, Beijing 100081, China) Abstract: The substantial difference between the source and target domains is the most crucial factor affecting the performance of unsupervised person re-identification models. The clustering-based unsupervised person re-identification method alleviates the problem to a certain extent by mining the similarity between the target domain, but it does not fundamentally eliminate the discrepancy between the domains. This paper proposes a clustering approach based on cross-domain style transfer for unsupervised pedestrian re-identification. First, to avoid the difference between domains in clustering-based unsupervised person re-identification models, the across-domain style transfer method based on a generative adversarial network is introduced into the clustering process. It transfers the source domain data to the target domain style data, which directly reduces the difference between domains and improves the recognition effect of the model. Second, the generator of cross-domain style transfer model has a single transfer scale and low efficiency of characteristics information transfer. A new type of residual block is proposed to replace the original residual block; then, it is inserted into the generator to achieve up-sampling and down-sampling. The specific generator has more characteristics of the scale transfer, and it transmits information more effectively. The cross-domain style transfer model can better transfer the style of the source and target domains, further reduce the difference between the two domains, and improve the recognition effect of the overall model. Extensive experiments were implemented on Market1501 and Duke-MTMC-Reid datasets to examine the proposed method, and the results showed that the proposed improved method achieved a better recognition effect. Keywords: machine vision; pedestrian re-identification; unsupervised; clustering; style transformation; generative adversarial networks; residual block; cross domain 行人重识别是利用计算机视觉技术来判断无 视角交叠摄像头间是否存在相同行人的技术。行 收稿日期:2020−12−07. 通信作者:毕晓君. E-mail:bixiaojun@hrbeu.edu.cn. 第 16 卷第 1 期 智 能 系 统 学 报 Vol.16 No.1 2021 年 1 月 CAAI Transactions on Intelligent Systems Jan. 2021
第1期 张智,等:基于风格转换的无监督聚类行人重识别 ·49· 人重识别技术作为提升智能监控系统自动化程度 按照类别赋予行人特征不同的伪标签,最后利用 的关键技术已经成为研究热点,该技术常与行人 伪标签进行有监督学习,取得了较好的效果。但 检测与跟踪技术结合,广泛用于智能视频监控与 是SSG模型主要通过挖掘目标域数据间的相似 公共安防的刑侦工作等。目前,深度学习理论口 性来降低域间差异性过大的影响,而没有从根本 在各个领域都大放异彩,现在行人重识别领域] 上减小域间差异性,导致模型能力受限。 最优秀的模型都是基于深度学习的方法。 目前无监督行人重识别领域中,没有工作通 基于深度学习的行人重识别方法主要分为 过将基于图像生成的风格转换模型引入到基于聚 2大类,有监督学习的行人重识别3和无监督学 类方法的无监督行人重识别模型中,来降低域间 习的行人重识别81。有监督学习需要大量的标 巨大差异性对聚类方法模型性能的影响。为了提 注样本指导模型训练,由于实际应用中样本标注 升聚类方法无监督行人重识别模型的性能,本文 的成本十分昂贵,无监督学习的行人重识别方法 针对SSG模型存在源域和目标域之间差异性较 不需要大量的有标签样本,因此无监督方法更具 大问题,提出一种基于风格转换的无监督聚类行 有实际应用价值。无监督方法较有监督方法更难 人重识别方法。首先,将无监督行人重识别领域 实现,源域和目标域间的差异性过大是目前该领 的风格转换模型SPGAN引入SSG模型中,减少 域需要解决的问题。截止到目前,对于无监督行 两域间差异性对网络识别效果的影响;然后,针 人重识别,国外研究刚刚起步,而在国内还属于 对引入的SPGAN模型的生成器特征转换尺度单 研究空白。因此,无监督学习的行人重识别方法 一以及特征信息传递效率低的缺点进行改进,提 研究具有重大意义。 升SPGAN模型的风格转换效果,进一步减少域 目前,无监督行人重识别的研究工作中,均使 间差异性对SSG模型的影响,提升SSG网络的识 用有标签源域数据对模型进行预训练,用无标签 别效果。 的目标域数据对模型进行正式训练以及测试。但 1 是,研究中存在域间差异性过大问题,大幅度影 基于风格转换的无监督聚类行人 响模型的识别率。2017年,Zhong等首次提出 重识别 域连接性学习方法构建源域和目标域之间的联 本文通过提出一种基于风格转换的无监督聚 系,该方法一定程度上构建了源域与目标域之间 类行人重识别方法,减少域间巨大差异性对模型 的特征空间关系,但没有有效解决域间巨大差异 性能的影响。该方法包含以下2个改进:)将无 性问题。图像风格转换(image style transfer)是将 监督行人重识别领域的风格转换模型一SPGAN 图像按照参考风格图像进行转换,最终得到某种 引入到基于聚类方法的无监督行人重识别模型一 特定风格的目标图像的技术,该技术常被应用于 S$G中,通过风格转换方法降低域间差异性对 图像处理及视频处理,也是无监督行人重识别领 S$G模型识别率的影响;2)为进一步减小域间巨 域的重要辅助技术。2018年,Deng等m提出一种 大差异性的影响,对SPGAN进行改进,通过改进 用于无监督行人重识别的风格转换模型(similar- 其生成器,解决生成器中特征转换尺度单一以及 ity preserving cycleconsistent generative adversarial network,SPGAN),该模型以循环生成对抗网络 特征信息传递效率低的问题,提升SPGAN模型 (cycle-consistent adversarial networks, 的风格转换效果,进一步降低域间差异性对S$G CycleGAN)9为基础框架,引入以目标域的身份作 模型识别率的影响。 为约束的损失函数,辅助生成器生成目标域风格 本文提出的整体模型如图1所示,首先,通过 的行人图片;另外,该模型加入孪生网络(siamese 基于多尺度特征转换的风格转换模型对源域图像 network,.SiaNet)以及对应的一致性损失函数,保 进行风格转换,利用转换图像替代原来的源域图 证行人图片经过转换后其相关身份信息不丢失。 像对模型进行预训练,然后使用聚类方法对目标 但是,SPGAN模型的生成器存在特征转换尺度单 域数据进行聚类并分配标签,再通过正式训练对 一,且特征信息传递效率低的问题,导致其风格 预训练模型进行微调。 转换效果不佳。2019年,Fu等提出一种基于聚 1.1 基于风格转换的SSG模型 类方法的无监督行人重识别模型(self-similarity 无监督聚类的行人重识别模型S$G通过对 grouping,.SSG),通过对行人特征进行聚类操作寻 网络提取的特征进行聚类,并按照聚类结果为它 找目标域数据间的相似性来对特征进行分类,并 们分配伪标签来训练模型。SSG方法的具体步骤
人重识别技术作为提升智能监控系统自动化程度 的关键技术已经成为研究热点,该技术常与行人 检测与跟踪技术结合,广泛用于智能视频监控与 公共安防的刑侦工作等。目前,深度学习理论[1] 在各个领域都大放异彩,现在行人重识别领域[2] 最优秀的模型都是基于深度学习的方法。 基于深度学习的行人重识别方法主要分为 2 大类,有监督学习的行人重识别[3-4] 和无监督学 习的行人重识别[5-8]。有监督学习需要大量的标 注样本指导模型训练,由于实际应用中样本标注 的成本十分昂贵,无监督学习的行人重识别方法 不需要大量的有标签样本,因此无监督方法更具 有实际应用价值。无监督方法较有监督方法更难 实现,源域和目标域间的差异性过大是目前该领 域需要解决的问题。截止到目前,对于无监督行 人重识别,国外研究刚刚起步,而在国内还属于 研究空白。因此,无监督学习的行人重识别方法 研究具有重大意义。 目前,无监督行人重识别的研究工作中,均使 用有标签源域数据对模型进行预训练,用无标签 的目标域数据对模型进行正式训练以及测试。但 是,研究中存在域间差异性过大问题,大幅度影 响模型的识别率。2017 年,Zhong 等 [5] 首次提出 域连接性学习方法构建源域和目标域之间的联 系,该方法一定程度上构建了源域与目标域之间 的特征空间关系,但没有有效解决域间巨大差异 性问题。图像风格转换 (image style transfer) 是将 图像按照参考风格图像进行转换, 最终得到某种 特定风格的目标图像的技术,该技术常被应用于 图像处理及视频处理,也是无监督行人重识别领 域的重要辅助技术。2018 年,Deng 等 [7] 提出一种 用于无监督行人重识别的风格转换模型 (similarity preserving cycleconsistent generative adversarial network, SPGAN),该模型以循环生成对抗网络 (cycle-consistent adversarial networks, CycleGAN)[9] 为基础框架,引入以目标域的身份作 为约束的损失函数,辅助生成器生成目标域风格 的行人图片;另外,该模型加入孪生网络 (siamese network, SiaNet) 以及对应的一致性损失函数,保 证行人图片经过转换后其相关身份信息不丢失。 但是,SPGAN 模型的生成器存在特征转换尺度单 一,且特征信息传递效率低的问题,导致其风格 转换效果不佳。2019 年,Fu 等 [8] 提出一种基于聚 类方法的无监督行人重识别模型 (self-similarity grouping, SSG),通过对行人特征进行聚类操作寻 找目标域数据间的相似性来对特征进行分类,并 按照类别赋予行人特征不同的伪标签,最后利用 伪标签进行有监督学习,取得了较好的效果。但 是 SSG 模型主要通过挖掘目标域数据间的相似 性来降低域间差异性过大的影响,而没有从根本 上减小域间差异性,导致模型能力受限。 目前无监督行人重识别领域中,没有工作通 过将基于图像生成的风格转换模型引入到基于聚 类方法的无监督行人重识别模型中,来降低域间 巨大差异性对聚类方法模型性能的影响。为了提 升聚类方法无监督行人重识别模型的性能,本文 针对 SSG 模型存在源域和目标域之间差异性较 大问题,提出一种基于风格转换的无监督聚类行 人重识别方法。首先,将无监督行人重识别领域 的风格转换模型 SPGAN 引入 SSG 模型中,减少 两域间差异性对网络识别效果的影响;然后,针 对引入的 SPGAN 模型的生成器特征转换尺度单 一以及特征信息传递效率低的缺点进行改进,提 升 SPGAN 模型的风格转换效果,进一步减少域 间差异性对 SSG 模型的影响,提升 SSG 网络的识 别效果。 1 基于风格转换的无监督聚类行人 重识别 本文通过提出一种基于风格转换的无监督聚 类行人重识别方法,减少域间巨大差异性对模型 性能的影响。该方法包含以下 2 个改进:1) 将无 监督行人重识别领域的风格转换模型—SPGAN 引入到基于聚类方法的无监督行人重识别模型— SSG 中,通过风格转换方法降低域间差异性对 SSG 模型识别率的影响;2) 为进一步减小域间巨 大差异性的影响,对 SPGAN 进行改进,通过改进 其生成器,解决生成器中特征转换尺度单一以及 特征信息传递效率低的问题,提升 SPGAN 模型 的风格转换效果,进一步降低域间差异性对 SSG 模型识别率的影响。 本文提出的整体模型如图 1 所示,首先,通过 基于多尺度特征转换的风格转换模型对源域图像 进行风格转换,利用转换图像替代原来的源域图 像对模型进行预训练,然后使用聚类方法对目标 域数据进行聚类并分配标签,再通过正式训练对 预训练模型进行微调。 1.1 基于风格转换的 SSG 模型 无监督聚类的行人重识别模型 SSG 通过对 网络提取的特征进行聚类,并按照聚类结果为它 们分配伪标签来训练模型。SSG 方法的具体步骤 第 1 期 张智,等:基于风格转换的无监督聚类行人重识别 ·49·
·50 智能系统学报 第16卷 如下:l)使用源域数据预训练Baseline模型:2)将 性降低源域和目标域间差异性过大对识别率带来 目标域数据输入Baseline模型提取特征;3)通过 的影响。由于Baseline模型使用源域数据进行预 聚类算法对行人特征进行聚类,并分配伪标签; 训练,挖掘目标域数据间相似性仅可以侧面降低 4)利用带有伪标签的行人特征训练模型。 域间差异性对模型识别率的影响。为了进一步降 域间差异性过大导致模型最终识别率的下降 低域间差异性过大对SSG模型的影响,本文将风 是目前无监督行人重识别领域的一个重大问题, 格转换模型SPGAN引入到SSG模型中。所提出 SSG模型通过聚类方法挖掘目标域数据间的相似 的基于风格转换的SSG模型如图2所示。 多尺度 成器 目标域风格 D源域图像 全连接层 跨域 整体行人 风格转换 有监督 特征 预训练 源域Ds 特征 多尺度 处理 图像 基线模型 三元组损失 (Resnet50) 行人特征 聚类 目标域 图像 聚类空间 分配伪标签 图1基于风格转换的聚类无监督行人重识别模型 Fig.1 Clustering approach based on style transfer for unsupervised person re-identification model 全连接层 有监督预训练 整体行人 SPGAN 特征 目标域风格! 特征 图像 源域图像 基线模型 处理 (Resnet50) 行人特征 三元组损失 聚类 目标域 图像 聚类空间 分配伪标签 图2基于风格转换的SSG模型 Fig.2 SSG model based on style transfer 首先,利用SPGAN模型对行人重识别的源域 合f、尤p和fiow 及目标域数据集进行风格转换,在光照、分辨率 将3组特征向量分别通过基于密度的聚类方 以及相机风格方面,得到更接近目标域风格的有 (density-based spatial clustering of applications 标签数据集;利用转换后源域数据集预训练以 with noise)四进行聚类操作,3组特征向量分别进 ResNet50io为基础框架的Baseline模型,得到一 行分类,根据不同组不同类别为每个行人图像分 个更加适应于目标域的Baseline模型。利用新的 配标签y、g以及w。根据3个特征向量的 Baseline模型对无标签数据进行特征提取,每个 分组结果,建立一个新的目标域数据集,其中每 行人的特征被提取后复制为2份,一份作为整体 张图像带有3个标签信息。 行人特征,另一份进行横向裁剪分为上半部分 在新数据集上使用三元组损失函数(batch- 行人特征p以及下部分行人特征m,将目标 hard triplet loss)损失函数对Baseline模型进行微 域数据提取的特征重复以上步骤得到3组特征集 调训练,该损失函数可表示为
如下:1) 使用源域数据预训练 Baseline 模型;2) 将 目标域数据输入 Baseline 模型提取特征;3) 通过 聚类算法对行人特征进行聚类,并分配伪标签; 4) 利用带有伪标签的行人特征训练模型。 域间差异性过大导致模型最终识别率的下降 是目前无监督行人重识别领域的一个重大问题, SSG 模型通过聚类方法挖掘目标域数据间的相似 性降低源域和目标域间差异性过大对识别率带来 的影响。由于 Baseline 模型使用源域数据进行预 训练,挖掘目标域数据间相似性仅可以侧面降低 域间差异性对模型识别率的影响。为了进一步降 低域间差异性过大对 SSG 模型的影响,本文将风 格转换模型 SPGAN 引入到 SSG 模型中。所提出 的基于风格转换的 SSG 模型如图 2 所示。 聚类空间 三元组损失 目标域 图像 有监督 预训练 分配伪标签 聚类 行人特征 全连接层 整体行人 特征 特征 处理 源域 图像 跨域 风格转换 DT DS 多尺度 生成器 G 目标域风格 源域图像 多尺度 生成器 F 基线模型 (Resnet50) 图 1 基于风格转换的聚类无监督行人重识别模型 Fig. 1 Clustering approach based on style transfer for unsupervised person re-identification model 聚类空间 SPGAN 三元组损失 目标域 图像 有监督预训练 分配伪标签 聚类 行人特征 全连接层 特征 处理 源域 图像 目标域风格 源域图像 基线模型 (Resnet50) 整体行人 特征 图 2 基于风格转换的 SSG 模型 Fig. 2 SSG model based on style transfer ft i f i t_up f i t_low 首先,利用 SPGAN 模型对行人重识别的源域 及目标域数据集进行风格转换,在光照、分辨率 以及相机风格方面,得到更接近目标域风格的有 标签数据集;利用转换后源域数据集预训练以 ResNet50[10] 为基础框架的 Baseline 模型,得到一 个更加适应于目标域的 Baseline 模型。利用新的 Baseline 模型对无标签数据进行特征提取,每个 行人的特征被提取后复制为 2 份,一份作为整体 行人特征 ,另一份进行横向裁剪分为上半部分 行人特征 以及下部分行人特征 ,将目标 域数据提取的特征重复以上步骤得到 3 组特征集 ft i f i t_up f i 合 、 和 t_low。 yt i y i t_up y i t_low 将 3 组特征向量分别通过基于密度的聚类方 法 (density-based spatial clustering of applications with noise)[11] 进行聚类操作,3 组特征向量分别进 行分类,根据不同组不同类别为每个行人图像分 配标签 、 以及 。根据 3 个特征向量的 分组结果,建立一个新的目标域数据集,其中每 张图像带有 3 个标签信息。 在新数据集上使用三元组损失函数 (batchhard triplet loss)[12]损失函数对 Baseline 模型进行微 调训练,该损失函数可表示为 ·50· 智 能 系 统 学 报 第 16 卷
第1期 张智,等:基于风格转换的无监督聚类行人重识别 ·51 2a+,-- 整流函数,Tanh为双曲正切函数。 =1 输人 mx8-9,山, (1) 2-p 7×7卷积 改进残差块 式中:”、x”、分别为从锚样本、正样本以及负 批标准化 3×3反卷积 样本提取的特征表示;P代表每训练批次随机抽 ReLU 批标准化 取的行人身份数量;K表示每个身份包含的实例 市 数量。该部分模型的整体损失函数可表示为 3×3卷积 ReLU L=Lify)+Luple(fupyup)+ (2) 批标准化 改进残差块 Luiple(fow,ylow)+Lariple(fe,y:) 式中:为整体行人特征输入全连接层后得到的 ReLU 3×3反卷积 整体嵌入向量,与整体行人特征具有相同的标签 改进残差块 批标准化 信息。 7 1.2基于多尺度特征转换的风格转换模型 3×3卷积 ReLU SPGAN网络是一个用于无监督行人重识别 批标准化 3×3卷积 的风格转换网络,它以CycleGAN为基础框架, ■ 首先,通过2个镜像对称的生成对抗网络(gener- ReLU Tanh ative adversarial network,GAN)形成一个环形网 改进残差块 络,来进行图像的风格转换;其次,加入了新的 输出 损失函数,该损失函数以目标域的身份作为约 图3改进生成器模型 束,辅助生成器去生成目标域风格的行人图片; Fig.3 Improved generator model 另外,该模型为了保证行人图片转换过程中不丢 首先,采用一种改进残差块模块),替换原来 失图片身份相关的信息,加人了孪生网络SiaNet 承担转换作用的原始残差块。原始残差块如 以及对应的一致性损失函数,保证行人图片经过 图4(a)所示,其结构顺序一般为:使用Conv+BN+ 转换后其相关身份信息不丢失。本文提出的基于 ReLU+Conv+BN模式作为侧边分支的模式,特 多尺度特征转换的风格转换模型由多尺度特征 征通过侧边分支与原来的特征相加,再通过 转换的生成器、判别器以及SiaNet网络组成。 RLU层传递信息。改进残差块如图4b),该模块 1.2.1多尺度特征转换的生成器模型 与原始残差块相比,改变了原有的结构顺序,改 SPGAN的生成器是编码器-转换器-解码器 进残差块采用BN+ReLU+Conv+BN+ReLU+ 体系结构,其编码器的作用是提取输入图像的特 Conv模式作为侧边分支,特征通过侧边分支直接 征信息;其转换器由原始残差块组成,作用是将 与原特征相加。将主干的ReLU层直接放到侧边 源域的输入图像特征转换为接近于目标域图像风 分支中,并且改变其排列顺序,将ReLU和BN层 格的特征;其解码器的作用是将特征向量进行复 作为权重层的预激活层,这种结构有利于更多的 原。但是该生成器存在一些问题,首先,由于编 特征信息通过,保证特征信息在传递过程中更好 码器下采样和解码器的上采样过程中,通过的特 地防止特征信息丢失,且生成器更易于训练;其 征具有尺度和位置不变性,而且在SPGAN的生 次,针对生成器结构中特征转换尺度单一问题, 成器中,只在一个尺度上使用原始残差块,只有 本文将改进残差块引入到生成器上采样及下采样 最低层的特征信息可以进行特征的转换,这样尺 的对应层中,在此结构中,生成器在上采样以及 度单一的特征信息转换会导致部分信息的丢失以 下采样过程中均有改进残差块承担特征信息转换 及网络学习功能的下降;其次,由于原始残差块 作用,在防止特征信息在传递过程中丢失的前提 的结构原因,特征信息在通过最低层的原始残差 下,形成一个多尺度特征转换的生成器,一定程 块时,原始残差块限制可以通过瓶颈的信息,这 度上解决了原始SPGAN在下采样和上采样过程 样会限制网络学习的功能。针对上述问题,本文 中特征信息无法进行多尺度转换以及特征信息丢 对SPGAN的生成器进行改进。 失的问题,提升生成器网络的学习性能,进一步 改进的生成器模型如图3所示,ReLU为线性 提升改进模型在风格转换上的效果
Ltriplet = ∑P i=1 ∑K a=1 [a + max p=1,2,···,K x (i) a − x (i) p 2 − min p=1,2,···,K j=1,2,···,p j,i x (i) a − x (i) p 2 ]+ (1) x (i) a x (i) p x (i) n P K 式中: 、 、 分别为从锚样本、正样本以及负 样本提取的特征表示; 代表每训练批次随机抽 取的行人身份数量; 表示每个身份包含的实例 数量。该部分模型的整体损失函数可表示为 Lssg = Li(ft , yt)+ Ltriple(ft_up, yt_up)+ Ltriple(ft_low, yt_low)+ Ltriple(fte, yt) (2) 式中: fte 为整体行人特征输入全连接层后得到的 整体嵌入向量,与整体行人特征具有相同的标签 信息。 1.2 基于多尺度特征转换的风格转换模型 SPGAN 网络是一个用于无监督行人重识别 的风格转换网络,它以 CycleGAN 为基础框架, 首先,通过 2 个镜像对称的生成对抗网络 (generative adversarial network, GAN) 形成一个环形网 络,来进行图像的风格转换;其次,加入了新的 损失函数,该损失函数以目标域的身份作为约 束,辅助生成器去生成目标域风格的行人图片; 另外,该模型为了保证行人图片转换过程中不丢 失图片身份相关的信息,加入了孪生网络 SiaNet 以及对应的一致性损失函数,保证行人图片经过 转换后其相关身份信息不丢失。本文提出的基于 多尺度特征转换的风格转换模型由多尺度特征 转换的生成器、判别器以及 SiaNet 网络组成。 1.2.1 多尺度特征转换的生成器模型 SPGAN 的生成器是编码器−转换器−解码器 体系结构,其编码器的作用是提取输入图像的特 征信息;其转换器由原始残差块组成,作用是将 源域的输入图像特征转换为接近于目标域图像风 格的特征;其解码器的作用是将特征向量进行复 原。但是该生成器存在一些问题,首先,由于编 码器下采样和解码器的上采样过程中,通过的特 征具有尺度和位置不变性,而且在 SPGAN 的生 成器中,只在一个尺度上使用原始残差块,只有 最低层的特征信息可以进行特征的转换,这样尺 度单一的特征信息转换会导致部分信息的丢失以 及网络学习功能的下降;其次,由于原始残差块 的结构原因,特征信息在通过最低层的原始残差 块时,原始残差块限制可以通过瓶颈的信息,这 样会限制网络学习的功能。针对上述问题,本文 对 SPGAN 的生成器进行改进。 改进的生成器模型如图 3 所示,ReLU 为线性 整流函数,Tanh 为双曲正切函数。 输入 批标准化 ReLU 改进残差块 改进残差块 ReLU 批标准化 批标准化 ReLU 批标准化 ReLU 改进残差块 批标准化 ReLU Tanh 输出 改进残差块 7×7 卷积 3×3 卷积 3×3 卷积 3×3 反卷积 3×3 反卷积 3×3 卷积 图 3 改进生成器模型 Fig. 3 Improved generator model 首先,采用一种改进残差块模块[13] ,替换原来 承担转换作用的原始残差块。原始残差块如 图 4(a) 所示,其结构顺序一般为:使用 Conv + BN + ReLU + Conv + BN 模式作为侧边分支的模式,特 征通过侧边分支与原来的特征相加,再通 过 ReLU 层传递信息。改进残差块如图 4(b),该模块 与原始残差块相比,改变了原有的结构顺序,改 进残差块采用 BN + ReLU + Conv + BN + ReLU + Conv 模式作为侧边分支,特征通过侧边分支直接 与原特征相加。将主干的 ReLU 层直接放到侧边 分支中,并且改变其排列顺序,将 ReLU 和 BN 层 作为权重层的预激活层,这种结构有利于更多的 特征信息通过,保证特征信息在传递过程中更好 地防止特征信息丢失,且生成器更易于训练;其 次,针对生成器结构中特征转换尺度单一问题, 本文将改进残差块引入到生成器上采样及下采样 的对应层中,在此结构中,生成器在上采样以及 下采样过程中均有改进残差块承担特征信息转换 作用,在防止特征信息在传递过程中丢失的前提 下,形成一个多尺度特征转换的生成器,一定程 度上解决了原始 SPGAN 在下采样和上采样过程 中特征信息无法进行多尺度转换以及特征信息丢 失的问题,提升生成器网络的学习性能,进一步 提升改进模型在风格转换上的效果。 第 1 期 张智,等:基于风格转换的无监督聚类行人重识别 ·51·
·52· 智能系统学报 第16卷 X 卷积层 批标准化 批标准化 ReLU ReLU 卷积层 卷积层 批标准化 批标准化 ReLU 卷积层 相加 ReLU 相加 X (a)原始残差块 (b)改进残差块 图4生成器残差块示意 Fig.4 Schematic diagram of generator residuals 1.2.2判别器模型 用正向转换以及反向转换的循环后恢复原始图 本文的判别器属于卷积网络,判别器将图像 像,以减少可能的映射函数空间,其循环一致性 作为输入对其进行特征提取,通过判别提取特征 损失函数可表示为 的真假来预测输入图像是原始图像还是生成 Leye(G,F)=Ex-p.[llF(G(x)-x)ll ] 图像。 Ep,[G(Fy)-y)ll] (5) 1.2.3 SiaNet网络 除了使用对抗损失函数以及循环一致性损失 SiaNet网络通过利用Contrastive Loss!4进行 函数,为了保证生成器生成图像的稳定性,本模 监督训练,通过训练,SiaNet网络将风格转换后的 型还使用目标域身份约束作为图像一图像转 图片与其转换前图片拉近,将风格迁移后的图片 换的辅助方法,该身份约束损失函数可表示为 与目标数据集中的其他图片推远,这样可以保证 Lide(G.F.Px.P,)=E-p.llF(x)-xl+ 行人的D信息不变。 E,-pllG(y)-yll (6) 1.2.4损失函数 该部分模型的整体损失函数可表示为 该部分模型包含2个生成器一判别器对,分 Lsp LTadv Lsadv +iLeye+ALide +3Lcom (7) 别是{G,D}和{F,D,它们将源域(目标域)的图 其中,=10,2=5,=2,=10。 像转换成目标域(源域)风格的图像。对于生成 器和对应的目标域判别器,其对抗损失函数可表 2仿真实验与结果分析 示为 2.1实验环境和参数设置 Lmdv(G.Dr.Px.Py)=Ey-p(Dr(y)-1)+ 本实验的硬件环境配置为Intel©CoreTMi79 E,-p.(Dr(G(x))) (3) 700K64位处理器,采用2个GeForce GTX2080Ti 式中p:和乃,分别表示源域和目标域的样本分布。 GPU进行运算加速,操作系统为64位Ubuntu 对于生成器F和对应的源域判别器Ds,其对 16.04,采用基于python3..6以及Pytorch1.0.0完成 抗损失函数可表示为 程序编程。 Lsadv(F.Ds.Py.P.)=E-p.(Ds(x)-1)+ 基于多尺度特征转换的风格转换模型的迭代 E[D:(F)] (4) 次数为15,批量大小为8;基于风格转换的无监督 由于没有成对数据进行训练,本模型通过使 聚类行人重识别模型的迭代次数为30,每次迭代
批标准化 ReLU 卷积层 批标准化 相加 Xl ReLU 卷积层 卷积层 批标准化 ReLU 卷积层 批标准化 ReLU 相加 Xl Xl+1 Xl+1 (a) 原始残差块 (b) 改进残差块 图 4 生成器残差块示意 Fig. 4 Schematic diagram of generator residuals 1.2.2 判别器模型 本文的判别器属于卷积网络,判别器将图像 作为输入对其进行特征提取,通过判别提取特征 的真假来预测输入图像是原始图像还是生成 图像。 1.2.3 SiaNet 网络 SiaNet 网络通过利用 Contrastive Loss[14] 进行 监督训练,通过训练,SiaNet 网络将风格转换后的 图片与其转换前图片拉近,将风格迁移后的图片 与目标数据集中的其他图片推远,这样可以保证 行人的 ID 信息不变。 1.2.4 损失函数 {G,DT } {F,DS } 该部分模型包含 2 个生成器—判别器对,分 别是 和 ,它们将源域 (目标域) 的图 像转换成目标域 (源域) 风格的图像。对于生成 器和对应的目标域判别器,其对抗损失函数可表 示为 LTadv(G,DT , px , py) = Ey∼py [ (DT (y)−1) 2 ] + Ex∼px [ (DT (G(x)))2 ] (3) 式中 px 和 py 分别表示源域和目标域的样本分布。 对于生成器 F 和对应的源域判别器 DS,其对 抗损失函数可表示为 LSadv(F,DS , py , px) =Ex∼px [ (DS (x)−1) 2 ] + Ey∼py [ (DS (F (y)))2 ] (4) 由于没有成对数据进行训练,本模型通过使 用正向转换以及反向转换的循环后恢复原始图 像,以减少可能的映射函数空间,其循环一致性 损失函数可表示为 Lcyc(G,F) =Ex∼px [∥F(G(x)− x)∥1 ]+ Ey∼py [ ∥G(F (y)−y)∥1 ] (5) 除了使用对抗损失函数以及循环一致性损失 函数,为了保证生成器生成图像的稳定性,本模 型还使用目标域身份约束作为图像−图像转 换的辅助方法,该身份约束损失函数可表示为 Lide(G,F, px , py) =Ex∼px ∥F(x)− x∥1+ Ey∼py ∥G(y)−y∥1 (6) 该部分模型的整体损失函数可表示为 Lsp = LTadv + LSadv +λ1Lcyc +λ2Lide +λ3Lcon (7) 其中, λ1= 10,λ2= 5,λ3= 2,m= 10。 2 仿真实验与结果分析 2.1 实验环境和参数设置 本实验的硬件环境配置为 Intel©CoreTMi7 9 700K 64 位处理器,采用 2 个 GeForce GTX 2 080 Ti GPU 进行运算加速,操作系统为 64 位 Ubuntu 16.04,采用基于 python3.6 以及 Pytorch 1.0.0 完成 程序编程。 基于多尺度特征转换的风格转换模型的迭代 次数为 15,批量大小为 8;基于风格转换的无监督 聚类行人重识别模型的迭代次数为 30,每次迭代 ·52· 智 能 系 统 学 报 第 16 卷