第17卷第5期 智能系统学报 Vol.17 No.5 2022年9月 CAAI Transactions on Intelligent Systems Sep.2022 D0:10.11992/tis.202107021 网络出版地址:https:/ns.cnki.net/kcms/detail/23.1538.tp.20220617.1648.006html 非对称卷积编码器的聚类算法 杨梦茵2,陈俊芬12,翟俊海 (1.河北大学数学与信息科学学院,河北保定071002,2.河北省机器学习与计算智能重点实验室,河北保定 071002) 摘要:基于深度神经网络的非监督学习方法通过联合优化特征表示和聚类指派,大大提升了聚类任务的性 能。但大量的参数降低了运行速度,另外,深度模型提取的特征的区分能力也影响聚类性能。为此,提出一种 新的聚类算法(asymmetric fully-connected layers convolutional auto-encoder,AFCAE),其中卷积编码器结合非对称 全连接进行无监督的特征提取,然后K-means算法对所得特征执行聚类。网络采用3×3和2×2的小卷积核,大 大减少了参数个数,降低了算法复杂性。在MNIST上AFCAE获得0.960的聚类精度,比联合训练的DEC(deep embedding clustering)方法(O.84O)提高了I2个百分点。在6个图像数据集上实验结果表明AFCAE网络有优异 的特征表示能力,能出色完成下游的聚类任务。 关键词:无监督;聚类:深度神经网络;卷积神经网络;自编码器:特征学习:特征表示:算法复杂性 中图分类号:TP181文献标志码:A文章编号:1673-4785(2022)05-0900-08 中文引用格式:杨梦菌,陈俊芬,翟俊海.非对称卷积编码器的聚类算法J小.智能系统学报,2022,17(5):900-907. 英文引用格式:YANG Mengyin,.CHEN Junfen,,ZHAI Junhai..A clustering method based on the asymmetric convolutional autoen- coder[J].CAAI transactions on intelligent systems,2022,17(5):900-907. A clustering method based on the asymmetric convolutional autoencoder YANG Mengyin,CHEN Junfen'2,ZHAI Junhai2 (1.College of Mathematics and Information Science,Hebei University,Baoding 071002,China;2.Hebei Key Laboratory of Ma- chine Learning and Computational Intelligence,Baoding 071002,China) Abstract:Unsupervised learning methods based on deep neural networks have synergistically optimized the feature rep- resentation and clustering assignment,thus greatly improving the clustering performance.However,numerous paramet- ers slow down the running speed,and the discriminative ability of the features extracted by deep models also influences their clustering performance.To address these two issues,a new clustering algorithm is proposed(asymmetric fully-con- nected layers convolutional autoencoder,AFCAE).where a convolutional autoencoder combined with several asymmet- ric fully-connected layers is used to extract the features,and the K-means algorithm is subsequently applied to perform clustering on the obtained features.AFCAE adopts 3x3 and 2x2 convolutional kernels,thereby considerably reducing the number of parameters and the computational complexity.The clustering accuracy of AFCAE on MNIST reaches 0.960,almost 12%higher than that of the jointly trained DEC method(0.840).Experimental results on six image data sets show that the AFCAE network has excellent feature representation ability and can finish the subsequent clustering tasks well. Keywords:unsupervised;clustering;deep neural network;convolutional neural network;autoencoder,feature learning; feature representation;algorithm complexity 无监督聚类是机器学习的重要分支,根据数 收稿日期:2021-07-09.网络出版日期:202206-20. 基金项目:河北省引进留学人员资助项目(C20200302):河北省 据自身的相似性揭示数据内部的隐藏结构。传统 机器学习与计算智能重点实验室自主立项项目 (ZZ201909-202109-1):河北省科技计划重点研发项 的聚类算法如K均值(K-means)-)、高斯混合模 目(19210310D):河北省自然科学基金项目(F2021 201020):河北省社会科学基金项目(HB20TQ005). 型GMM(Gaussian mixture model))、基于密度的聚 通信作者:陈俊芬.E-mail:chenjunfen2.010@126.com 类算法DBSCAN(density-based spatial clustering of
DOI: 10.11992/tis.202107021 网络出版地址: https://kns.cnki.net/kcms/detail/23.1538.tp.20220617.1648.006.html 非对称卷积编码器的聚类算法 杨梦茵1,2,陈俊芬1,2,翟俊海1,2 (1. 河北大学 数学与信息科学学院,河北 保定 071002; 2. 河北省机器学习与计算智能重点实验室,河北 保定 071002) 摘 要:基于深度神经网络的非监督学习方法通过联合优化特征表示和聚类指派,大大提升了聚类任务的性 能。但大量的参数降低了运行速度,另外,深度模型提取的特征的区分能力也影响聚类性能。为此,提出一种 新的聚类算法 (asymmetric fully-connected layers convolutional auto-encoder, AFCAE),其中卷积编码器结合非对称 全连接进行无监督的特征提取,然后 K-means 算法对所得特征执行聚类。网络采用 3×3 和 2×2 的小卷积核,大 大减少了参数个数,降低了算法复杂性。在 MNIST 上 AFCAE 获得 0.960 的聚类精度,比联合训练的 DEC(deep embedding clustering) 方法 (0.840) 提高了 12 个百分点。在 6 个图像数据集上实验结果表明 AFCAE 网络有优异 的特征表示能力,能出色完成下游的聚类任务。 关键词:无监督;聚类;深度神经网络;卷积神经网络;自编码器;特征学习;特征表示;算法复杂性 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2022)05−0900−08 中文引用格式:杨梦茵, 陈俊芬, 翟俊海. 非对称卷积编码器的聚类算法 [J]. 智能系统学报, 2022, 17(5): 900–907. 英文引用格式:YANG Mengyin, CHEN Junfen, ZHAI Junhai. A clustering method based on the asymmetric convolutional autoencoder[J]. CAAI transactions on intelligent systems, 2022, 17(5): 900–907. A clustering method based on the asymmetric convolutional autoencoder YANG Mengyin1,2 ,CHEN Junfen1,2 ,ZHAI Junhai1,2 (1. College of Mathematics and Information Science, Hebei University, Baoding 071002, China; 2. Hebei Key Laboratory of Machine Learning and Computational Intelligence, Baoding 071002, China) Abstract: Unsupervised learning methods based on deep neural networks have synergistically optimized the feature representation and clustering assignment, thus greatly improving the clustering performance. However, numerous parameters slow down the running speed, and the discriminative ability of the features extracted by deep models also influences their clustering performance. To address these two issues, a new clustering algorithm is proposed (asymmetric fully-connected layers convolutional autoencoder, AFCAE), where a convolutional autoencoder combined with several asymmetric fully-connected layers is used to extract the features, and the K-means algorithm is subsequently applied to perform clustering on the obtained features. AFCAE adopts 3×3 and 2×2 convolutional kernels, thereby considerably reducing the number of parameters and the computational complexity. The clustering accuracy of AFCAE on MNIST reaches 0.960, almost 12% higher than that of the jointly trained DEC method (0.840). Experimental results on six image data sets show that the AFCAE network has excellent feature representation ability and can finish the subsequent clustering tasks well. Keywords: unsupervised; clustering; deep neural network; convolutional neural network; autoencoder; feature learning; feature representation; algorithm complexity 无监督聚类是机器学习的重要分支,根据数 据自身的相似性揭示数据内部的隐藏结构。传统 的聚类算法如 K 均值 (K-means)[1-2] 、高斯混合模 型 GMM (Gaussian mixture model)[3] 、基于密度的聚 类算法 DBSCAN (density-based spatial clustering of 收稿日期:2021−07−09. 网络出版日期:2022−06−20. 基金项目:河北省引进留学人员资助项目 (C20200302); 河北省 机器学习与计算智能重点实验室自主立项项目 (ZZ201909-202109-1);河北省科技计划重点研发项 目(19210310D);河北省自然科学基金项目(F2021 201020);河北省社会科学基金项目(HB20TQ005). 通信作者:陈俊芬. E-mail: chenjunfen2010@126.com. 第 17 卷第 5 期 智 能 系 统 学 报 Vol.17 No.5 2022 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2022
·901· 杨梦茵,等:非对称卷积编码器的聚类算法 第5期 applications with noise)等简单易实现,得到广泛 备自动编码器来学习嵌入特征。DCN6结合了 应用。但在图像、文本、语音等高维且无结构的数 自动编码器和K-means算法。DCN预先训练自 据上容易发生维度灾难,且需要为每个数据集和任 动编码器,而后优化重建损失和K-means损失。 务人工设计特征,从而使聚类性能大打折扣。主 精心设计了网络结构,以避免琐碎和无意义的解 成分分析法(principal component analysis,.PCA) 决方案,并提出了一个有效的优化程序来处理挑 对高维数据进行降维并提取特征,其线性表征能 战性问题。DEN)利用自动编码器从原始数据 力在应对某些特殊分布的数据时效果不佳。基于 中学习简化的表示。应用局部保留约束保留数据 非监督学习的自编码器(auto-encoder,AE)-通过 的局部结构属性,通过优化损失对网络进行微调 多层复合映射能得到数据的非线性特征。自编码 实现聚类的精度的提高。 器将原始高维数据映射到低维特征空间,在该空 卷积自编码器中卷积核利用局部感受野抽取 间中更容易依据特征的分布形态执行聚类分析。 图像的局部特征和权值共享减少参数个数等优 深度聚类是用深度神经网络进行表征学习和 点,使得深度聚类方法DBC⑧在图像数据集上获 聚类指派的过程,通常卷积神经网络(convolution- 得很好的聚类结果。DBC尝试学习深度卷积自 al neural networks,CNN)周或堆叠自编码器自适应 编码器以端到端的方式进行训练,设计卷积层 地学习特征表示,再使用传统聚类算法完成聚类 (卷积层和反卷积层)和池化层(池化层和反池化 指派。此类方法与非深度聚类算法相比,在基准 层)组成的全连接卷积自编码器(FCAE)网络。 测试图像数据集上都获得了较好的性能。而AE 使用t分布嵌入算法(t-SNE)分布去衡量特征点 由此不断发展为稀疏自动编码器(sparse auto-.en- 与特征聚类中心点的相似性。 coder)9-1o、降噪自动编码器(denoising auto-en- CAE进行特征提取加快了网络训练的速度还 coder)-l2I以及卷积自动编码器(convolutional 提高了其下游应用任务的精度。基于深度特征表 auto-encoder,CAEy。 示的Softmax聚类算法(ASCAE-Softmax)2o算法 现有的聚类方法大多侧重于建模实例之间的 设计非对称自编码器网络进行无监督聚类,其中 相似或相异关系,而忽略了提取更有效的表示, 随机初始化网络权值替代层层预训练和全连接层 这在很大程度上影响了聚类性能。受此启发,本 的重构误差作为目标函数的正则约束。该方法为 文提出了一种基于非对称全连接层的卷积自编码 无监督聚类分析和特征表达提供了新思路。 器的深度聚类算法进行图像聚类分析。非对称全 连接层的卷积自编码器学习输入图片的特征表 2 AFCAE聚类算法 示,然后经典的K-means算法对特征进行聚类划 利用卷积自编码器进行无监督的特征提取, 分,对应成原图像的聚类结果。该方法的主要贡 并应用在下游聚类任务中。与一些联合聚类算法 献包括: 不同,本文方法分阶段进行。 1)提出非对称全连接层的卷积网络: 21网络结构 2)使用小卷积核,降低算法的复杂性,加快 本文提出了一种非对称全连接的卷积自编码 运行速度; (asymmetric fully-connected layers convolutional 3)在MNIST数据集上取得优于先进的深度 auto-encoder,.AFCAE),网络结构如图1上半部分 聚类算法的聚类精度。 所示。网络的输人是28×28的图片,然后通过卷 1相关工作 积网络(C1-C4)进行特征提取。受经典联合聚类 算法DBC1I的启发,卷积核多采用3×3。C1到 自动编码器是无监督表示学习中重要算法之 C3的每个待提取特征图都使用3×3卷积核,而 一,由于隐藏层维度通常比数据层小,它可以帮 C4层上使用2×2的卷积核。在C1层使用步长为 助提取更显著的特征。DEC(deep embedding clus- 3的3×3卷积核,步长等于卷积核的尺寸相当于 tering)先通过深度编码解码网络对数据进行降 把图片分割成小片再做特征提取,便于在分辨率 维,然后采用软分配确定样本点所属簇类,得到 高的图像上捕捉丰富的局部特征信息。F1-F6是 聚类结果。通过最小化软标签的分布和辅助目标 全连接层,其中F4层的神经元个数与数据集有 分布之间的KL散度来迭代改善聚类。IDECU1 关,其他层均设为50个。网络采用ReLU激活函 基于DEC的这种思路,在表征学习步骤时使用重 数。AFCAE网络相对于对称式网络而言可以看 构损失和聚类损失联合训练聚类网络。使用欠完 成在F2-F6对称全连接部分前加入F1全连接层
applications with noise)[4] 等简单易实现,得到广泛 应用。但在图像、文本、语音等高维且无结构的数 据上容易发生维度灾难,且需要为每个数据集和任 务人工设计特征,从而使聚类性能大打折扣。主 成分分析法 (principal component analysis,PCA)[5] 对高维数据进行降维并提取特征,其线性表征能 力在应对某些特殊分布的数据时效果不佳。基于 非监督学习的自编码器 (auto-encoder,AE)[6-7] 通过 多层复合映射能得到数据的非线性特征。自编码 器将原始高维数据映射到低维特征空间,在该空 间中更容易依据特征的分布形态执行聚类分析。 深度聚类是用深度神经网络进行表征学习和 聚类指派的过程,通常卷积神经网络 (convolutional neural networks,CNN)[8] 或堆叠自编码器自适应 地学习特征表示,再使用传统聚类算法完成聚类 指派。此类方法与非深度聚类算法相比,在基准 测试图像数据集上都获得了较好的性能。而 AE 由此不断发展为稀疏自动编码器 (sparse auto-encoder)[9-10] 、降噪自动编码器 (denoising auto-encoder)[11-12] 以及卷积自动编码器 (convolutional auto-encoder,CAE)[13]。 现有的聚类方法大多侧重于建模实例之间的 相似或相异关系,而忽略了提取更有效的表示, 这在很大程度上影响了聚类性能。受此启发,本 文提出了一种基于非对称全连接层的卷积自编码 器的深度聚类算法进行图像聚类分析。非对称全 连接层的卷积自编码器学习输入图片的特征表 示,然后经典的 K-means 算法对特征进行聚类划 分,对应成原图像的聚类结果。该方法的主要贡 献包括: 1)提出非对称全连接层的卷积网络; 2)使用小卷积核,降低算法的复杂性,加快 运行速度; 3)在 MNIST 数据集上取得优于先进的深度 聚类算法的聚类精度。 1 相关工作 自动编码器是无监督表示学习中重要算法之 一,由于隐藏层维度通常比数据层小,它可以帮 助提取更显著的特征。DEC(deep embedding clustering)[14] 先通过深度编码解码网络对数据进行降 维,然后采用软分配确定样本点所属簇类,得到 聚类结果。通过最小化软标签的分布和辅助目标 分布之间的 KL 散度来迭代改善聚类。IDEC[15] 基于 DEC 的这种思路,在表征学习步骤时使用重 构损失和聚类损失联合训练聚类网络。使用欠完 备自动编码器来学习嵌入特征。DCN[16] 结合了 自动编码器和 K-means 算法。DCN 预先训练自 动编码器,而后优化重建损失和 K-means 损失。 精心设计了网络结构,以避免琐碎和无意义的解 决方案,并提出了一个有效的优化程序来处理挑 战性问题。DEN[17] 利用自动编码器从原始数据 中学习简化的表示。应用局部保留约束保留数据 的局部结构属性,通过优化损失对网络进行微调 实现聚类的精度的提高。 卷积自编码器中卷积核利用局部感受野抽取 图像的局部特征和权值共享减少参数个数等优 点,使得深度聚类方法 DBC[18] 在图像数据集上获 得很好的聚类结果。DBC 尝试学习深度卷积自 编码器以端到端的方式进行训练,设计卷积层 (卷积层和反卷积层) 和池化层 (池化层和反池化 层) 组成的全连接卷积自编码器 (FCAE) 网络。 使用 t 分布嵌入算法 (t-SNE)[19] 分布去衡量特征点 与特征聚类中心点的相似性。 CAE 进行特征提取加快了网络训练的速度还 提高了其下游应用任务的精度。基于深度特征表 示的 Softmax 聚类算法 (ASCAE-Softmax)[20] 算法 设计非对称自编码器网络进行无监督聚类,其中 随机初始化网络权值替代层层预训练和全连接层 的重构误差作为目标函数的正则约束。该方法为 无监督聚类分析和特征表达提供了新思路。 2 AFCAE 聚类算法 利用卷积自编码器进行无监督的特征提取, 并应用在下游聚类任务中。与一些联合聚类算法 不同,本文方法分阶段进行。 2.1 网络结构 本文提出了一种非对称全连接的卷积自编码 器 (asymmetric fully-connected layers convolutional auto-encoder, AFCAE),网络结构如图 1 上半部分 所示。网络的输入是 28×28 的图片,然后通过卷 积网络 (C1-C4) 进行特征提取。受经典联合聚类 算法 DBC[18] 的启发,卷积核多采用 3×3。C1 到 C3 的每个待提取特征图都使用 3×3 卷积核,而 C4 层上使用 2×2 的卷积核。在 C1 层使用步长为 3 的 3×3 卷积核,步长等于卷积核的尺寸相当于 把图片分割成小片再做特征提取,便于在分辨率 高的图像上捕捉丰富的局部特征信息。F1-F6 是 全连接层,其中 F4 层的神经元个数与数据集有 关,其他层均设为 50 个。网络采用 ReLU 激活函 数。AFCAE 网络相对于对称式网络而言可以看 成在 F2-F6 对称全连接部分前加入 F1 全连接层 ·901· 杨梦茵,等:非对称卷积编码器的聚类算法 第 5 期
第17卷 智能系统学报 ·902· 进行数据的整合,从而形成非对称网络。改善网 络的非线性特征表示的能力。 →-州-叫-% 名→-州州州 图1非对称全连接层卷积自编码器(AFCAE)网络框架 Fig.1 Overall framework of the asymmetric fully-connected layers convolutional auto-encoder(AFCAE)network 这个AFCAE网络的端到端无监督预训练结 实验用到的AFCAE聚类算法详细化为图2,对应 束后,截取C1到F6层后接入K-means算法形成 的网络参数列于表1,其中(k,n)/s分别代表卷积 本文的深度聚类模型。为了减少名词的困扰,称 核的大小、通道数和步长。 其为AFCAE聚类算法,见图1的下半部分。后面 28×28×1 0 ● 9×9×25 4×4×50 2×2×50 1×1×50 Conv2 Conv3 Conv4 F2 图2 AFCAE网络结构 Fig.2 AFCAE network structure 表1 AFCAE网络参数详细表 约束: Table 1 The detailed description of AFCAE network para- J(W:X:X)=- 1 meters (1) i=l 层 卷积核步长 式中:X={x,x2,…,xw}为图像数据集;N为图片总 CI (3.25)/3 个数。第1项损失为重构损失,输入x通过自编 C2 (3.50)/2 码器得到重构后的输出。第2项是L2正则化约 C3 (3,50)/1 束,W为网络参数。α为超参数,后面实验中设置 C4 (2.50)/1 a=0.01。 FI 50 训练好非对称全连接层卷积自编码器后,保 F2 50 留C1-F6层网络结构和参数,使用F6层输出作为 F3 50 特征信息进行聚类。 F4 10 2.3复杂性分析 F5 50 卷积层的理论时间复杂性表示P为 F6 50 2.2 AFCAE方法 o位 (2) AFCAE网络损失函数为输人x:与输出之间 式中:d为卷积层的数量;l是卷积层的索引;n是 的误差平方和,为防止网络过拟合,加入L2正则化 第层中卷积核的数量,也称为输出通道数;-称
进行数据的整合,从而形成非对称网络。改善网 络的非线性特征表示的能力。 C1 C2 C3 C4 F1 F2 F3 F4 F5 F6 + 图 1 非对称全连接层卷积自编码器 (AFCAE) 网络框架 Fig. 1 Overall framework of the asymmetric fully-connected layers convolutional auto-encoder (AFCAE) network 这个 AFCAE 网络的端到端无监督预训练结 束后,截取 C1 到 F6 层后接入 K-means 算法形成 本文的深度聚类模型。为了减少名词的困扰,称 其为 AFCAE 聚类算法,见图 1 的下半部分。后面 实验用到的 AFCAE 聚类算法详细化为图 2,对应 的网络参数列于表 1,其中 (k,n)/s 分别代表卷积 核的大小、通道数和步长。 F3 F5 F4 F1 F2 F6 + … … … … … … 1×1×50 2×2×50 4×4×50 9×9×25 28×28×1 Conv1 Conv2 Conv3 Conv4 图 2 AFCAE 网络结构 Fig. 2 AFCAE network structure 表 1 AFCAE 网络参数详细表 Table 1 The detailed description of AFCAE network parameters 层 卷积核/步长 C1 (3,25)/3 C2 (3,50)/2 C3 (3,50)/1 C4 (2,50)/1 F1 50 F2 50 F3 50 F4 10 F5 50 F6 50 2.2 AFCAE 方法 xi xˆi L2 AFCAE 网络损失函数为输入 与输出 之间 的误差平方和,为防止网络过拟合,加入 正则化 约束: J(W;X;Xˆ) = 1 N ∑N i=1 || xi−bxi ||2 +α ∑ ||W||2 (1) X = {x1, x2,··· , xN} N xi xˆi L2 W α α = 0.01 式中: 为图像数据集; 为图片总 个数。第 1 项损失为重构损失,输入 通过自编 码器得到重构后的输出 。第 2 项是 正则化约 束, 为网络参数。 为超参数,后面实验中设置 。 训练好非对称全连接层卷积自编码器后,保 留 C1-F6 层网络结构和参数,使用 F6 层输出作为 特征信息进行聚类。 2.3 复杂性分析 卷积层的理论时间复杂性表示[21] 为 O ∑d l=1 nl−1k 2 l nlm 2 l (2) d l nl l nl−1 式中: 为卷积层的数量; 是卷积层的索引; 是 第 层中卷积核的数量,也称为输出通道数; 称 第 17 卷 智 能 系 统 学 报 ·902·
·903· 杨梦茵,等:非对称卷积编码器的聚类算法 第5期 为第层的输入通道数;k是卷积核的尺寸;m为卷 聚类精度(ACC):聚类精度定义为聚类指派 积核输出的特征图大小。 对的数据个数与全部数据个数之比: 全连接层的时间复杂性为输入通道和输出通 N 道的乘积,表示为 ,6(S,r ACC= (4) 3 6(s,r)= 1,s=r 0,其他 3 实验结果与分析 式中:s代表真实标签;是聚类指派的标签;N为 总的数据个数。经典匈牙利算法对聚类类标和真 本节主要通过K-means对特征表示进行聚类 实类标进行匹配,通过最佳类别指派得到最优类 分析来验证AFCAE网络的特征表示能力。所有 别结果。ACC值越接近1,说明聚类准确度越高。 实验均在6个图像数据集上进行,3.1节详细介绍 标准互信息(NM①:将互信息归一化到[0,1], 不同数据集。为了减少随机初始化对K-means算 法性能的影响,每组实验都重复50次,选取最好 若互信息为0表示两者毫无关联;若为1表示完 全相关。NMI可定义为 的聚类精度。 实验环境:IntelCorei5-6300HO处理器,NVIDIA NMI=- 21(5,) ΓHs)+Hr) (5) 2.0GB显存,8.0 GB RAM显卡;基于开源的Ker- 式中:H为信息嫡;I是真实标签和聚类标签之间 as库搭建AFCAE网络。 的互信息。NMI衡量了样本标签的预测分布与 3.1实验数据集 真实分布的相关程度。 1)MNIST:由70000个手写数字组成的灰度 3.3消融实验 图像数据集。图像尺寸为28×28,属于10个不同 为证实AFCAE网络具有优异的特征提取能 的类(htp:yann.lecun.com/exdb/mnist//)。 力,在MNIST和COL-20数据集上从全连接层是 2)CAS-PEAL-R1:属于40个不同类的200幅 否对称,瓶颈层参数选择以及聚类层数的选择这 灰度图像数据集。每张图片尺寸为480×360。是 纯色背景下人脸有表情变化的正面视图。且每人 3方面进行详尽的实验分析。 有5幅图片(http:www.jdl.ac.cn/peal/JDL-PEAL- 3.3.1全连接层的选择 Release.htm)。 AFCAE网络可以看成在F2-F6对称全连接部 3)C0IL-20:由日常生活物品组成的1440张 分前加入全连接层F1。卷积自动编码器中添加 尺寸为128×128的数据集。数据集类别为20类, 的全连接层是将提取的特征进行整合。为了证实 是有角度、无形变的灰度图片(https:/www.dazhu 合理增加全连接层数有助于提高网络的聚类精 anlan.com/2019/10/06/5d999ded06295/)。 度。保持编码器和解码器网络结构不变,对全连 4)BioID-Face:数据集为23位人物组成的1521 接层部分尝试了不同深度以及对称和非对称式的 幅灰度图像,图片尺寸为384×286。每张图片为 设计。为了对比的公平性,选取全连接层F6层的 正面视图,具有较大的姿态变化和表情变化(ht- 特征输出进行聚类分析并比较聚类精度,实验结 tps://www.bioid.com/facedb/). 果列于表2,其中“d-50-c-50”中的数字代表全连 5)IMM-Face:属于40个类簇的240幅图片, 接层的神经元个数,d是输人全连接层数据的维 图片尺寸为640×48,视图为纯色背景下有侧面和 度,c是瓶颈层神经元的个数,括号中数值为进行 正面、有表情变化的图片,每人6幅彩色/灰度图 20次实验取得的方差。黑体为本文选取网络全 (http://www.imm.dtu.dk/~aam/aamexplorer/) 连接层结构以及对应的聚类精度。 6)UMISTS:包括20个人共564幅图像,图片 根据表2可知,随着全连接层数的增加,聚类 尺寸为220×220,纯色背景下每个人具有不同角 精度先增长后有所下降,说明全连接层的增加有 度、不同姿态的灰度图像(https:l/see.xidian.cdu 助于网络提取有效的特征,使得K-means算法在 cn/vipsl/database Face.html) MNIST上有0.960的聚类精度。实验发现不断地 3.2评价指标 增加全连接层的深度,聚类精度呈下降趋势,说 本文使用评价聚类性能的数值指标是聚类精 明不能盲目增加网络深度。故本文全连接部分选 度(accuracy,ACC)和标准互信息(normalized mu- 取d50-50-50-c-50-50结构。 tual information,NM①。两个指标值越近l,说明 接着在MNIST和COIL-20数据集上验证瓶 聚类准确度越高。 颈层神经元个数c的选择,结果见图3
为第 l 层的输入通道数; kl是卷积核的尺寸;ml为卷 积核输出的特征图大小。 全连接层的时间复杂性为输入通道和输出通 道的乘积,表示为 O ∑d l=1 nl−1nl (3) 3 实验结果与分析 本节主要通过 K-means 对特征表示进行聚类 分析来验证 AFCAE 网络的特征表示能力。所有 实验均在 6 个图像数据集上进行,3.1 节详细介绍 不同数据集。为了减少随机初始化对 K-means 算 法性能的影响,每组实验都重复 50 次,选取最好 的聚类精度。 实验环境:IntelCorei5-6300HQ 处理器,NVIDIA 2.0GB 显存,8.0GB RAM 显卡;基于开源的 Keras 库搭建 AFCAE 网络。 3.1 实验数据集 1) MNIST:由 70 000 个手写数字组成的灰度 图像数据集。图像尺寸为 28×28,属于 10 个不同 的类(http://yann.lecun.com/exdb/mnist/)。 2) CAS-PEAL-R1:属于 40 个不同类的 200 幅 灰度图像数据集。每张图片尺寸为 480×360。是 纯色背景下人脸有表情变化的正面视图。且每人 有 5 幅图片(http://www.jdl.ac.cn/peal/JDL-PEALRelease.htm)。 3) COIL-20:由日常生活物品组成的 1 440 张 尺寸为 128×128 的数据集。数据集类别为 20 类, 是有角度、无形变的灰度图片(https://www.dazhu anlan.com/2019/10/06/5d999ded06295/)。 4) BioID-Face:数据集为 23 位人物组成的 1521 幅灰度图像,图片尺寸为 384×286。每张图片为 正面视图,具有较大的姿态变化和表情变化(https://www.bioid.com/facedb/)。 5) IMM-Face:属于 40 个类簇的 240 幅图片, 图片尺寸为 640×48,视图为纯色背景下有侧面和 正面、有表情变化的图片,每人 6 幅彩色/灰度图 片(http://www.imm.dtu.dk/~aam/aamexplorer/)。 6) UMISTS:包括 20 个人共 564 幅图像,图片 尺寸为 220×220,纯色背景下每个人具有不同角 度、不同姿态的灰度图像(https://see.xidian.edu. cn/vipsl/database_Face.html)。 3.2 评价指标 本文使用评价聚类性能的数值指标是聚类精 度 (accuracy,ACC) 和标准互信息 (normalized mutual information,NMI)。两个指标值越近 1,说明 聚类准确度越高。 聚类精度 (ACC):聚类精度定义为聚类指派 对的数据个数与全部数据个数之比: ACC = ∑N i=1 δ(si ,ri) N (4) δ(si ,ri) = { 1, si = ri 0, 其他 式中: si代表真实标签;ri是聚类指派的标签; N 为 总的数据个数。经典匈牙利算法对聚类类标和真 实类标进行匹配,通过最佳类别指派得到最优类 别结果。ACC 值越接近 1,说明聚类准确度越高。 标准互信息 (NMI):将互信息归一化到 [0,1], 若互信息为 0 表示两者毫无关联;若为 1 表示完 全相关。NMI 可定义为 NMI = 2I(si ,ri) H(si)+ H(ri) (5) 式中: H 为信息熵; I 是真实标签和聚类标签之间 的互信息。NMI 衡量了样本标签的预测分布与 真实分布的相关程度。 3.3 消融实验 为证实 AFCAE 网络具有优异的特征提取能 力,在 MNIST 和 COIL-20 数据集上从全连接层是 否对称,瓶颈层参数选择以及聚类层数的选择这 3 方面进行详尽的实验分析。 3.3.1 全连接层的选择 AFCAE 网络可以看成在 F2-F6 对称全连接部 分前加入全连接层 F1。卷积自动编码器中添加 的全连接层是将提取的特征进行整合。为了证实 合理增加全连接层数有助于提高网络的聚类精 度。保持编码器和解码器网络结构不变,对全连 接层部分尝试了不同深度以及对称和非对称式的 设计。为了对比的公平性,选取全连接层 F6 层的 特征输出进行聚类分析并比较聚类精度,实验结 果列于表 2,其中“d-50-c-50”中的数字代表全连 接层的神经元个数,d 是输入全连接层数据的维 度,c 是瓶颈层神经元的个数,括号中数值为进行 20 次实验取得的方差。黑体为本文选取网络全 连接层结构以及对应的聚类精度。 根据表 2 可知,随着全连接层数的增加,聚类 精度先增长后有所下降,说明全连接层的增加有 助于网络提取有效的特征,使得 K-means 算法在 MNIST 上有 0.960 的聚类精度。实验发现不断地 增加全连接层的深度,聚类精度呈下降趋势,说 明不能盲目增加网络深度。故本文全连接部分选 取 d-50-50-50-c-50-50 结构。 接着在 MNIST 和 COIL-20 数据集上验证瓶 颈层神经元个数 c 的选择,结果见图 3。 ·903· 杨梦茵,等:非对称卷积编码器的聚类算法 第 5 期
第17卷 智能系统学报 ·904· 表2全连接层部分的设计和对应的聚类精度 Table 2 Design of fully connected layers and corresponding clustering accuracies 全连接层的设计结构 MNIST(ACC) COIL-20(ACC) d-50-c-50 0.923(7.5×10 0.688(6.4×10 d-50-50-c-50 0.935(6.9×10 0.7144.3×103 d50-50-c-50-50 0.9345.8×10 0.7376.5×103 d-50-50-50-c-50-50 0.9604.6×10 0.768(3.6×10 d-50-50-50-c-50-50-50 0.910(6.8×10 0.751(5.7×10 d-50-50-50-50-c-50-50-50 0.896(7.9×10 0.693(6.5×10 1.0r 特征,全连接层通过权值矩阵将局部特征进行组 0.8 合。随着全连接层数的增加,特征表示不断抽象 组合,更趋向于全局特征的表示,因此F6层所提 0.6 取的特征可看作聚类的输入,实验也证明了F6层 04 上的聚类精度最高。 0. 5101520253035404550 1.0 (a)MNIST 器0.8 0.80 ¥0.6 -o-ACC 0.75 NMI 0.70 0.4 F1 F2 F3 F4 F5 F6 0.65 全连接层 0.60 图4 MNIST数据集上每个全连接层的聚类精度 0.5 Fig.4 Clustering accuracy of each fully connected layer on 102030405060708090100 MNIST dataset (b)C0IL-20 3.3.3卷积部分的选择 图3瓶颈层神经元个数c影响聚类精度 本组实验在MNIST上验证卷积核与卷积层 Fig.3 Clustering accuracy affected by neuron numbers c 数对聚类性能的影响。全连接部分与前面的设置 in bottleneck layer 相同,只改变卷积核大小、数量和卷积层数,从而 观察图3(a)和(b)不难发现,在简单的MNIST 建立A、B、C、D和E共5个卷积部分,参数的详 数据集上,随着神经元个数的增加,聚类精度先 细信息见表3,其中(k,n)s分别为卷积核的大小、 上升后一直呈下降趋势,c=10(基准类别数)时出 数目和步长。 现最高精度;而在相对复杂的COL-20数据集 表35个不同卷积网络结构对比 上,随着神经元个数的增加,聚类精度并不稳定, Table 3 Comparison 5 different convolutional structures c为20(基准类别数)和40时均出现最高聚类精 卷积层 度。可见瓶颈层神经元个数影响网络的抽象表达 C1 C2 C3 C4 C5 C6 网络 能力,也最终影响聚类性能。综合考虑,后续实 A (25,3)/3(50,3)/2(50,3)/1(50,3)/2 验中设定AFCAE网络的瓶颈层神经元个数c为 (25,3)/3(50,3)/2(50,3)/1(50,2)/2 聚类簇数。 (25,3)/3(25,2)/2(25,3)/1(50,2)/1 3.3.2聚类输入层的选择 D (25,3)/3(50,2)/2(50,2)/1(50,2)/1(50,2)/1 本组实验在MNIST数据集上测试AFCAE网 E (25,3)/2(25,3)/1(25,3)/1(25,3)/2(50,3)/1(50,2)/1 络中不同的全连接层的输出特征在聚类性能上的 差异。在某一全连接层后接K-means算法,进行 由于不同数据集的图片尺寸不统一,不考虑输 深度聚类分析,所得聚类性能如图4所示。显然, 入图像尺寸,仅考虑输人通道、输出通道以及卷 F6层的特征使得聚类性能ACC(0.960)和NMI 积核大小时,理论时间复杂性用式子-k来计 (0.916)均达到最优。在卷积层C4上获取的局部 算。比如网络B上的理论运行时间为:1×32×25+
表 2 全连接层部分的设计和对应的聚类精度 Table 2 Design of fully connected layers and corresponding clustering accuracies 全连接层的设计结构 MNIST(ACC) COIL-20(ACC) d-50-c-50 0.923(7.5×10−4) 0.688(6.4×10−4) d-50-50-c-50 0.935(6.9×10−4) 0.714(4.3×10−3) d-50-50-c-50-50 0.934(5.8×10−4) 0.737(6.5×10−3) d-50-50-50-c-50-50 0.960(4.6×10−4) 0.768(3.6×10−4) d-50-50-50-c-50-50-50 0.910(6.8×10−4) 0.751(5.7×10−4) d-50-50-50-50-c-50-50-50 0.896(7.9×10−4) 0.693(6.5×10−4) 1.0 0.8 0.6 0.4 0.2 5 10 15 20 25 30 35 40 45 50 聚类精度 0.80 0.75 0.70 0.65 0.60 0.55 聚类精度 c 10 20 30 40 50 60 70 80 90 100 c (a) MNIST (b) COIL-20 图 3 瓶颈层神经元个数 c 影响聚类精度 Fig. 3 Clustering accuracy affected by neuron numbers c in bottleneck layer 观察图 3(a) 和 (b) 不难发现,在简单的 MNIST 数据集上,随着神经元个数的增加,聚类精度先 上升后一直呈下降趋势,c=10(基准类别数) 时出 现最高精度;而在相对复杂的 COIL-20 数据集 上,随着神经元个数的增加,聚类精度并不稳定, c 为 20(基准类别数) 和 40 时均出现最高聚类精 度。可见瓶颈层神经元个数影响网络的抽象表达 能力,也最终影响聚类性能。综合考虑,后续实 验中设定 AFCAE 网络的瓶颈层神经元个数 c 为 聚类簇数。 3.3.2 聚类输入层的选择 本组实验在 MNIST 数据集上测试 AFCAE 网 络中不同的全连接层的输出特征在聚类性能上的 差异。在某一全连接层后接 K-means 算法,进行 深度聚类分析,所得聚类性能如图 4 所示。显然, F6 层的特征使得聚类性能 ACC(0.960) 和 NMI (0.916) 均达到最优。在卷积层 C4 上获取的局部 特征,全连接层通过权值矩阵将局部特征进行组 合。随着全连接层数的增加,特征表示不断抽象 组合,更趋向于全局特征的表示,因此 F6 层所提 取的特征可看作聚类的输入,实验也证明了 F6 层 上的聚类精度最高。 1.0 0.8 0.6 0.4 聚类性能 F1 F2 F3 F4 F5 F6 全连接层 ACC NMI 图 4 MNIST 数据集上每个全连接层的聚类精度 Fig. 4 Clustering accuracy of each fully connected layer on MNIST dataset 3.3.3 卷积部分的选择 本组实验在 MNIST 上验证卷积核与卷积层 数对聚类性能的影响。全连接部分与前面的设置 相同,只改变卷积核大小、数量和卷积层数,从而 建立 A、B、C、D 和 E 共 5 个卷积部分,参数的详 细信息见表 3,其中 (k,n)/s 分别为卷积核的大小、 数目和步长。 表 3 5 个不同卷积网络结构对比 Table 3 Comparison 5 different convolutional structures 卷积层 网络 C1 C2 C3 C4 C5 C6 A (25,3)/3 (50,3)/2 (50,3)/1 (50,3)/2 B (25,3)/3 (50,3)/2 (50,3)/1 (50,2)/2 C (25,3)/3 (25,2)/2 (25,3)/1 (50,2)/1 D (25,3)/3 (50,2)/2 (50,2)/1 (50,2)/1 (50,2)/1 E (25,3)/2 (25,3)/1 (25,3)/1 (25,3)/2 (50,3)/1 (50,2)/1 nl−1k 2 l nl 由于不同数据集的图片尺寸不统一,不考虑输 入图像尺寸,仅考虑输入通道、输出通道以及卷 积核大小时,理论时间复杂性用式子 来计 算。比如网络 B 上的理论运行时间为:1×32 ×25 + 第 17 卷 智 能 系 统 学 报 ·904·