第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0I:10.11992tis.201912006 基于深度学习与结构磁共振成像的抑郁症辅助诊断 付常洋,王瑜,肖洪兵,邢素霞 (北京工商大学食品安全大数据技术北京市重点实验室,北京100048) 摘要:抑郁症是致残率和发病率最高的疾病之一,全球约有3亿人正遭受着抑郁症的困扰。然而,目前并没 有有效的生物特征和临床方法能够帮助医生对抑郁症进行准确的诊断。针对此任务,本文将计算机视觉领域 的前沿深度学习模型进行优化与适配,应用于抑郁症的辅助诊断,并在此基础上引入迁移学习,取得了很好的 效果。实验结果表明,同前沿算法模型相比,本文提出的方法能够有效提高抑郁症与健康对照者的结构磁共振 成像分类准确率和召回率.充分验证了提出方法的有效性和优越性。 关键词:抑郁症;诊断:计算机视觉;深度学习;优化:迁移学习;结构磁共振成像;分类 中图分类号:TP181文献标志码:A 文章编号:1673-4785(2021)03-0544-08 中文引用格式:付常洋,王瑜,肖洪兵,等.基于深度学习与结构磁共振成像的抑郁症辅助诊断J.智能系统学报,2021, 16(3):544-551. 英文引用格式:FU Changyang,,WANG Yu,XIAO Hongbing,etal.Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging(J.CAAI transactions on intelligent systems,2021,16(3):544-551. Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging FU Changyang,WANG Yu,XIAO Hongbing,XING Suxia (Beijing Key Lab of Food Safety Big Data Technology,Beijing Technology and Business University,Beijing 100048,China) Abstract:Depression is one of the diseases with the highest disability and morbidity.About 300 million people around the world are suffering from depression.However,there exist no effective biological characteristics and clinical meth- ods to help doctors diagnose depression accurately.In this study,the state-of-the-art deep leaming model in the field of computer vision is optimized and adapted to diagnose depression.On this basis,transfer learning is introduced,achiev- ing excellent results.Experimental results reveal that compared with the frontier algorithm model,the proposed method can effectively improve the classification accuracy and recall of the structural magnetic resonance image of control sub- jects who are healthy and those who are depressed,which fully verifies the effectiveness and superiority of the proposed method. Keywords:depression;diagnosis;computer vision;deep learning;optimization;transfer learning;structural magnetic resonance image;classification 抑郁症(major depressive disorder,,MDD)是一 类》第10版(1CD-10)和美国《精神障碍诊断与 种非常常见的精神类疾病,对患者的生活质量和 统计手册》第4版(DSM-IV),但这种方式过于 身体健康有着显著的危害。据世界卫生组织统 依赖医生的主观判断,正确诊断率低,延误了最 计,目前,全球有超3亿人患有抑郁症四,抑郁症 佳治疗时间,导致病情迁延或加重。因此,寻找 患者的自残、自杀等行为对患者及其家属造成的 一个客观且有效的诊断方法,例如根据常见的脑 痛苦、对社会造成的损失不容忽视。抑郁症的临 部医学影像来诊断抑郁症的方法,是非常必要的。 床诊断主要依据精神疾病诊断手册,缺乏定量的 结构磁共振成像(structural magnetic resonance 生理指标,目前常用的诊断标准有《国际疾病分 imaging,sMR是当下流行的医学成像方式,具有 收稿日期:2019-12-07 无创、对比度高等优势,广泛用于抑郁症的诊断 基金项目:国家自然科学基金面上项目(61671028):国家重大 科技研发子课题(ZLJC603-5-1). 研究7。随着人工智能和大数据时代的到来,深度 通信作者:王瑜.E-mail:wangyu(@btbu.edu.cn. 学习s0作为人工智能领域的核心技术,与传统算
DOI: 10.11992/tis.201912006 基于深度学习与结构磁共振成像的抑郁症辅助诊断 付常洋,王瑜,肖洪兵,邢素霞 (北京工商大学 食品安全大数据技术北京市重点实验室,北京 100048) 摘 要:抑郁症是致残率和发病率最高的疾病之一,全球约有 3 亿人正遭受着抑郁症的困扰。然而,目前并没 有有效的生物特征和临床方法能够帮助医生对抑郁症进行准确的诊断。针对此任务,本文将计算机视觉领域 的前沿深度学习模型进行优化与适配,应用于抑郁症的辅助诊断,并在此基础上引入迁移学习,取得了很好的 效果。实验结果表明,同前沿算法模型相比,本文提出的方法能够有效提高抑郁症与健康对照者的结构磁共振 成像分类准确率和召回率,充分验证了提出方法的有效性和优越性。 关键词:抑郁症;诊断;计算机视觉;深度学习;优化;迁移学习;结构磁共振成像;分类 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2021)03−0544−08 中文引用格式:付常洋, 王瑜, 肖洪兵, 等. 基于深度学习与结构磁共振成像的抑郁症辅助诊断 [J]. 智能系统学报, 2021, 16(3): 544–551. 英文引用格式:FU Changyang, WANG Yu, XIAO Hongbing, et al. Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging[J]. CAAI transactions on intelligent systems, 2021, 16(3): 544–551. Assisted diagnosis of major depression disorder using deep learning and structural magnetic resonance imaging FU Changyang,WANG Yu,XIAO Hongbing,XING Suxia (Beijing Key Lab of Food Safety Big Data Technology, Beijing Technology and Business University, Beijing 100048, China) Abstract: Depression is one of the diseases with the highest disability and morbidity. About 300 million people around the world are suffering from depression. However, there exist no effective biological characteristics and clinical methods to help doctors diagnose depression accurately. In this study, the state-of-the-art deep learning model in the field of computer vision is optimized and adapted to diagnose depression. On this basis, transfer learning is introduced, achieving excellent results. Experimental results reveal that compared with the frontier algorithm model, the proposed method can effectively improve the classification accuracy and recall of the structural magnetic resonance image of control subjects who are healthy and those who are depressed, which fully verifies the effectiveness and superiority of the proposed method. Keywords: depression; diagnosis; computer vision; deep learning; optimization; transfer learning; structural magnetic resonance image; classification 抑郁症 (major depressive disorder, MDD) 是一 种非常常见的精神类疾病,对患者的生活质量和 身体健康有着显著的危害。据世界卫生组织统 计,目前,全球有超 3 亿人患有抑郁症[1] ,抑郁症 患者的自残、自杀等行为对患者及其家属造成的 痛苦、对社会造成的损失不容忽视。抑郁症的临 床诊断主要依据精神疾病诊断手册,缺乏定量的 生理指标,目前常用的诊断标准有《国际疾病分 类》第 10 版 (ICD-10)[2] 和美国《精神障碍诊断与 统计手册》第 4 版 (DSM-IV)[3] ,但这种方式过于 依赖医生的主观判断,正确诊断率低,延误了最 佳治疗时间,导致病情迁延或加重。因此,寻找 一个客观且有效的诊断方法,例如根据常见的脑 部医学影像来诊断抑郁症的方法,是非常必要的。 结构磁共振成像 (structural magnetic resonance imaging, sMRI)[4] 是当下流行的医学成像方式,具有 无创、对比度高等优势,广泛用于抑郁症的诊断 研究[5-7]。随着人工智能和大数据时代的到来,深度 学习[8-10] 作为人工智能领域的核心技术,与传统算 收稿日期:2019−12−07. 基金项目:国家自然科学基金面上项目 (61671028);国家重大 科技研发子课题 (ZLJC6 03-5-1). 通信作者:王瑜. E-mail:wangyu@btbu.edu.cn. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·545· 法相比,在图像领域取得了突破性的成绩 工作流程,用于目标领域同类型、同部位的数据 因此,越来越多的学者将深度学习方法应用到医 进行预训练,然后将模型迁移至抑郁症sMRI数 疗图像领域的研究课题中。 据,并进行再训练,提高了分类精度,证明了迁移 深度卷积神经网络(convolutional neural net- 学习的有效性,通过与其他迁移学习方法做对 works,.CNN)通过使用反向传播算法来调整其内 比,证明了提出的迁移学习方法的优越性; 部参数,叠加了多层神经元,用来发现大数据集 3)与多组先进的二维、三维网络进行对比实 中更深层次的特征。文献[16]表明,网络层数对 验,证明了提出的3 D-DenseNet网络在抑郁症sMRI 网络的最终性能的影响巨大,越深层的网络往往 数据分类任务中具有优越性和有效性。 越能提高其泛化能力。CNN网络的发展也符合 这一规律,自AlexNet!的7层发展到了VGGm 1实验准备 的16层,甚至19层,后来发展到GoogLeNet!的 1.1数据库 22层。但随着层数的增加,训练网络所需的计算 本研究共包含174名被试者,其中99名重症 能力和时间成本也随之增加,而且一味地增加层 抑郁症患者和75名年龄、性别、受教育程度匹配 数,并不总是能够提升网络性能,网络达到一定 的健康对照者(heathy control,,HC)。重症抑郁症 深度后再加深,反而会导致网络收敛速度变慢, 患者是从首都医科大学附属安定医院招募的,健 分类准确率也变差。排除数据集过小带来的模型 康对照组是从报纸广告上招募的。所有重症抑郁 过拟合等问题,分类准确率会在增加网络层数的 症患者都达到了美国精神障碍诊断与统计学手册 过程中逐渐趋于饱和,继续加深网络会出现准确 第4版(DSM-IV)对抑郁症的诊断标准,所有正常 率下降的现象,这种现象被称为退化问题,网络 人都通过了DSM-IV的非病人版结构化临床访谈 层数越深,网络的分类性能退化越快。 面试,在实验前,所有被试者都签署了知情同意书。 针对这一问题,He等在2016年提出了残 2组被试者的临床统计学分析结果如表1所示。 差网络(residual network,.ResNet),通过引入残差 表1被试者统计学分析结果 模块,建立相邻层之间的短路连接,有助于训练 Table 1 Statistical analysis results of subjects 过程中梯度的反向传播,将网络层数做到了 P 152层以上,一定程度上解决了梯度消失和网络 变量 MDD HC 33:42 退化问题。 性别(男:女) 43:56 0.941 基于此,Huang等20在2017年提出了密集连 年龄/岁 34.57±12.18 35.65±12.63 0.570 (densely connected convolutional networks, 教育程度/年 13.75±3.01 12.93±2.40 0.610 DenseNet),其基本思路与ResNet一致,但是该网 年龄范围/岁 18-65 19-60 络建立了前面所有层与后面层的连接,实现特征 病程/年 7.88±7.87 重用,在参数量和计算成本均比ResNet少的情况 抑郁症发病次数/次 2.63±126 下,DenseNet在多个公开大型数据集上表现出了 HAMD 21.44±3.97 比ResNet更优的性能。 虽然深度学习在计算机视觉领域大放异彩, HAMA 16.00±9.61 但目前的深度学习网络,大多只能处理如Im- 表1中:P为MDD和HC的双样本T检验 ageNet等二维的自然图像数据,对于三维数据涉 值;HAMD表示汉密尔顿忧郁量表(Hamilton de- 及较少,如何将深度学习网络应用在抑郁症结构 pression scale);HAMA表示汉密尔顿焦虑量表 磁共振影像的分类任务上,成为一个研究热点和 (Hamilton anxiety scale). 难点。基于此,本文将DenseNet网络模型进行三 1.2sMRI数据采集 维(three dimensional,3D)化,并引入迁移学习方 所有sMRI图像都是在北京师范大学认知神 法,进一步优化了实验结果。本文主要贡献概括 经科学与学习国家重点实验室用一台Tesla3.0扫 如下: 描所得,扫描时采用三维磁化快速梯度回波成像 1)提出一种三维密集连接网络(3D-Dense (magnetization prepared rapid gradient echo, Net),将密集连接的思想扩展到三维,以充分挖掘 MPRAGE),扫描参数如下:射频重复时间(repeti- 三维sMRI数据中的层间结构信息,实现对抑郁 tion time,,TR)=2530ms,回波时间(echo time,TE)= 症患者与健康对照者sMRI数据的准确分类; 3.39ms,翻转角度(flip angle,.FA)=7°,成像视野 2)引入迁移学习,精心设计了一个迁移学习 (field of view,FOV)=256mm×256mm,体素大小
法相比,在图像领域取得了突破性的成绩[11-12]。 因此,越来越多的学者将深度学习方法应用到医 疗图像领域的研究课题中[13-15]。 深度卷积神经网络 (convolutional neural networks, CNN) 通过使用反向传播算法来调整其内 部参数,叠加了多层神经元,用来发现大数据集 中更深层次的特征。文献 [16] 表明,网络层数对 网络的最终性能的影响巨大,越深层的网络往往 越能提高其泛化能力。CNN 网络的发展也符合 这一规律,自 AlexNet[11] 的 7 层发展到了 VGG[17] 的 16 层,甚至 19 层,后来发展到 GoogLeNet[18] 的 22 层。但随着层数的增加,训练网络所需的计算 能力和时间成本也随之增加,而且一味地增加层 数,并不总是能够提升网络性能,网络达到一定 深度后再加深,反而会导致网络收敛速度变慢, 分类准确率也变差。排除数据集过小带来的模型 过拟合等问题,分类准确率会在增加网络层数的 过程中逐渐趋于饱和,继续加深网络会出现准确 率下降的现象,这种现象被称为退化问题,网络 层数越深,网络的分类性能退化越快。 针对这一问题,He 等 [19] 在 2016 年提出了残 差网络 (residual network, ResNet),通过引入残差 模块,建立相邻层之间的短路连接,有助于训练 过程中梯度的反向传播,将网络层数做到 了 152 层以上,一定程度上解决了梯度消失和网络 退化问题。 基于此,Huang 等 [20] 在 2017 年提出了密集连 接网络 (densely connected convolutional networks, DenseNet),其基本思路与 ResNet 一致,但是该网 络建立了前面所有层与后面层的连接,实现特征 重用,在参数量和计算成本均比 ResNet 少的情况 下,DenseNet 在多个公开大型数据集上表现出了 比 ResNet 更优的性能。 虽然深度学习在计算机视觉领域大放异彩, 但目前的深度学习网络,大多只能处理如 ImageNet 等二维的自然图像数据,对于三维数据涉 及较少,如何将深度学习网络应用在抑郁症结构 磁共振影像的分类任务上,成为一个研究热点和 难点。基于此,本文将 DenseNet 网络模型进行三 维 (three dimensional, 3D) 化,并引入迁移学习方 法,进一步优化了实验结果。本文主要贡献概括 如下: 1) 提出一种三维密集连接网络 (3D-Dense Net),将密集连接的思想扩展到三维,以充分挖掘 三维 sMRI 数据中的层间结构信息,实现对抑郁 症患者与健康对照者 sMRI 数据的准确分类; 2) 引入迁移学习,精心设计了一个迁移学习 工作流程,用于目标领域同类型、同部位的数据 进行预训练,然后将模型迁移至抑郁症 sMRI 数 据,并进行再训练,提高了分类精度,证明了迁移 学习的有效性,通过与其他迁移学习方法做对 比,证明了提出的迁移学习方法的优越性; 3) 与多组先进的二维、三维网络进行对比实 验,证明了提出的 3D-DenseNet 网络在抑郁症 sMRI 数据分类任务中具有优越性和有效性。 1 实验准备 1.1 数据库 本研究共包含 174 名被试者,其中 99 名重症 抑郁症患者和 75 名年龄、性别、受教育程度匹配 的健康对照者 (heathy control, HC)。重症抑郁症 患者是从首都医科大学附属安定医院招募的,健 康对照组是从报纸广告上招募的。所有重症抑郁 症患者都达到了美国精神障碍诊断与统计学手册 第 4 版 (DSM-IV) 对抑郁症的诊断标准,所有正常 人都通过了 DSM-IV 的非病人版结构化临床访谈 面试,在实验前,所有被试者都签署了知情同意书。 2 组被试者的临床统计学分析结果如表 1 所示。 表 1 被试者统计学分析结果 Table 1 Statistical analysis results of subjects 变量 MDD HC P 性别(男∶女) 43∶56 33∶42 0.941 年龄/岁 34.57±12.18 35.65±12.63 0.570 教育程度/年 13.75±3.01 12.93±2.40 0.610 年龄范围/岁 18~65 19~60 — 病程/年 7.88±7.87 — — 抑郁症发病次数/次 2.63±1.26 — — HAMD 21.44±3.97 — — HAMA 16.00±9.61 — — 表 1 中 :P 为 MDD 和 HC 的双样本 T 检验 值;HAMD 表示汉密尔顿忧郁量表 (Hamilton depression scale);HAMA 表示汉密尔顿焦虑量表 (Hamilton anxiety scale)。 1.2 sMRI 数据采集 所有 sMRI 图像都是在北京师范大学认知神 经科学与学习国家重点实验室用一台 Tesla3.0 扫 描所得,扫描时采用三维磁化快速梯度回波成像 (magnetization prepared rapid gradient echo, MPRAGE),扫描参数如下:射频重复时间 (repetition time, TR) = 2530 ms,回波时间 (echo time, TE) = 3.39 ms,翻转角度 (flip angle, FA) = 7°,成像视野 (field of view, FOV) = 256 mm×256 mm,体素大小 第 3 期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·545·
·546· 智能系统学报 第16卷 为1mm×1mm×1.33mm,层厚为1.33mm,扫描层 接网络(3D-DenseNet),以更好地从三维sMRI数 数为128。 据中提取有代表性的特征,并提高抑郁症的 1.3数据预处理 sMRI数据分类的精度。 sMRI数据预处理工作使用基于Matlab的 一个121层3D-DenseNet结构如图2所示。 SPM12工具包2u实现。考虑到灰质区域对抑郁 其中3D-DenseBlock1包含6层,3D-DenseBlock2 症诊断的重要影响2四,本文只用灰质部分进行实 包含12层,3D-DenseBlock3包含24层,3D- 验。预处理主要内容包括:去除非脑组织、空间 DenseBlock4包含16层。每一层都包含一个1×1×1 标准化、灰质分割、空间平滑。处理后每个被试 三维卷积层(3D-Conv)、一个3×3×3三维卷积层, 者sMRI数据的尺寸为121×145×121体素。数据 2个批量归一化(batch normalization,.BN2层,以 预处理流程如图1所示。 及2个线性整流函数(ReLU)21层。一个6层的 3D-DenseBlock结构如图3所示。 灰质分割 空间平滑 原始图像 空间标准化、 3D-Conv,3D-BN 去除非脑组织 ReLU,3D-MaxPool 标准化全脑标准化灰质 平滑灰质 3D-DenseBlock1☐ 3D-Transition MNI模板 3D-DenseBlock 2 图1数据预处理流程 Fig.1 Data preprocessing flowchart 3D-Transition 3D-DenseBlock 3 2研究方法 3D-Transition 2.1三维化DenseNet 3D-DenseBlock4☐ 尽管DenseNet在很多2D自然图片数据集上 取得了卓越的成绩,但在医学图像领域却鲜有建 ReLU,3D-AvgPool 树,原因是2D网络中的卷积核、池化核等都是二 FC、Softmax 维的矩阵,只能在二维平面图像的高度H和宽度 HC?MDD W两个方向上移动,自然也只能提取二维的特 征。而sMRI等医学图像数据大多是三维的立体 图23D-DenseNet的121层网络结构 数据,使用2D网络处理时只能将三维图像分层 Fig.2 Structure of 3D-DenseNet 121 输入,或将其中一个维度当作channel维度,但 输入 2种方法都不能很好地利用数据的层间结构信 息。基于此,本文将2D网络中的卷积核、池化核 BN +ReLU+3D-Conv) 等过滤器增加一个深度维度D,扩展为三维矩阵, BN +ReLU+3D-Conv 这样过滤器就可以在sMRI数据所有3个方向 BN +ReLU+3D-Conv (H、W、D)上移动,也就可以充分挖掘出数据的空 间信息,每个过滤器的输出同样是一个3D的数 BN +ReLU+3D-Conv 据。若其中一个三维卷积核的尺寸为k×k×k× BN +ReLU+3D-Conv) channel,数量为n,输入数据尺寸为h×w×d,由于 本文使用的sMRI数据类似灰度图,channel维度 BN +ReLU+3D-Conv 为1,故该卷积核的输出尺寸为 输出 (h-k+1)×(w-k+1)×(d-k+1)×n (1) 通过类似的方法可以扩展DenseNet中的池 图3一个6层3D-DenseBlock结构 化层、批归一化层,从而构建出一个三维密集连 Fig.3 A 6-layer 3D-DenseBlock
为 1 mm×1 mm×1.33 mm,层厚为 1.33 mm,扫描层 数为 128。 1.3 数据预处理 sMRI 数据预处理工作使用基于 Matlab 的 SPM12 工具包[21] 实现。考虑到灰质区域对抑郁 症诊断的重要影响[22] ,本文只用灰质部分进行实 验。预处理主要内容包括:去除非脑组织、空间 标准化、灰质分割、空间平滑。处理后每个被试 者 sMRI 数据的尺寸为 121×145×121 体素。数据 预处理流程如图 1 所示。 空间标准化、 去除非脑组织 原始图像 MNI 模板 灰质分割 空间平滑 标准化全脑 标准化灰质 平滑灰质 图 1 数据预处理流程 Fig. 1 Data preprocessing flowchart 2 研究方法 2.1 三维化 DenseNet 尽管 DenseNet 在很多 2D 自然图片数据集上 取得了卓越的成绩,但在医学图像领域却鲜有建 树,原因是 2D 网络中的卷积核、池化核等都是二 维的矩阵,只能在二维平面图像的高度 H 和宽度 W 两个方向上移动,自然也只能提取二维的特 征。而 sMRI 等医学图像数据大多是三维的立体 数据,使用 2D 网络处理时只能将三维图像分层 输入,或将其中一个维度当作 channel 维度,但 2 种方法都不能很好地利用数据的层间结构信 息。基于此,本文将 2D 网络中的卷积核、池化核 等过滤器增加一个深度维度 D,扩展为三维矩阵, 这样过滤器就可以在 sMRI 数据所有 3 个方向 (H、W、D) 上移动,也就可以充分挖掘出数据的空 间信息,每个过滤器的输出同样是一个 3D 的数 据。若其中一个三维卷积核的尺寸为 k×k×k× channel,数量为 n,输入数据尺寸为 h×w×d,由于 本文使用的 sMRI 数据类似灰度图,channel 维度 为 1,故该卷积核的输出尺寸为 (h−k+1)×(w−k+1)×(d −k+1)×n (1) 通过类似的方法可以扩展 DenseNet 中的池 化层、批归一化层,从而构建出一个三维密集连 接网络 (3D-DenseNet),以更好地从三维 sMRI 数 据中提取有代表性的特征,并提高抑郁症 的 sMRI 数据分类的精度。 一个 121 层 3D-DenseNet 结构如图 2 所示。 其中 3D-DenseBlock 1 包含 6 层,3D-DenseBlock 2 包含 12 层 , 3D-DenseBlock 3 包含 24 层 , 3DDenseBlock 4 包含 16 层。每一层都包含一个 1×1×1 三维卷积层 (3D-Conv)、一个 3×3×3 三维卷积层, 2 个批量归一化 (batch normalization, BN)[23] 层,以 及 2 个线性整流函数 (ReLU)[24] 层。一个 6 层的 3D-DenseBlock 结构如图 3 所示。 3D-Conv, 3D-BN ReLU, 3D-MaxPool 3D-DenseBlock 1 3D-Transition 3D-DenseBlock 2 3D-Transition 3D-DenseBlock 3 3D-Transition 3D-DenseBlock 4 ReLU, 3D-AvgPool FC、Softmax HC ? MDD 图 2 3D-DenseNet 的 121 层网络结构 Fig. 2 Structure of 3D-DenseNet 121 BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv BN +ReLU+3D-Conv 输入 输出 图 3 一个 6 层 3D-DenseBlock 结构 Fig. 3 A 6-layer 3D-DenseBlock ·546· 智 能 系 统 学 报 第 16 卷
第3期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症轴助诊断 ·547· 每一层的密集连接(dense connectivity)都可 式(2)中的密集连接操作在特征图大小不一 表示为 致时是不可行的,所以在每2个3D-DenseBlock =H(xox1…-JD (2) 之间都加入一个过渡层3D-Transition,包含一个 BN层、一个RLU层、一个1×1×1卷积层,以及 式中:x表示第I层接收的特征图(feature map): 一个均匀池化层(AvgPool),用来进行特征图降 [0x1…-]表示将第0,1,…,-1层产生的特征 维。最后,一个3D-DenseBlock后面连接一个 图按channel维度连接在一起;H()表示复合函 ReLU层、一个AvgPool层、一个全连接层(FC), 数,由3个连续操作组成,即批量归一化操作、线 以及一个分类器层(Softmax),用来实现最后的特 性整流函数激活,以及3×3×3的三维卷积运算。 征降维和分类。 如果每个H()函数产生k个特征图,那么第I层 一个121层的3D-DensNet网络的具体参数和 输入的特征图总数为k。+k×(I-1),其中k代表输 架构如表2所示,其中每一个Conv都代表一个 入层的通道数。 BN-ReLU-Conv顺序流程。 表23D-DenseNet121网络架构 Table 2 Parameters and architecture of the 3D-DenseNet 121 层 输出尺寸体素 参数 输入层 1×121×145×121 3D-Conv 64×121×73×61 卷积核大小(7,7,7),步幅(1,2,2) 3D-BN 64×121×73×61 cps:1e-5,动量系数:0.1 ReLU 64×121×73×61 3D-MaxPool 64×61×37×31 卷积核大小(3,3,3),步幅(1,1,1) 1×1×1conv Dense Block(1) 256×61×37×31 ×6 3×3×3conv 128×61×37×31 1×1×1conv 3D-Transition 128×30×18×15 2×2×2平均池化,步幅:2 [1×1×1conv Dense Block(2) 512×30×18×15 ×12 3x3x3 conv 256×30×18×15 1×1×1conW 3D-Transition 256×15×9×7 2×2×2平均池化.步幅:2 1×1×1conw Dense Block(3) 1024×15×9×7 ×24 3×3×3conv 512×15×9×7 1×1×1conv 3D-Transition 512×7×4×3 2×2×2平均池化,步幅:2 1×1×1conw Dense Block(4) 1024×7×4×3 3×3×3conw ×16 ReLU 1024×7×4×3 3D-AvgPool 1024×1×1×1 卷积核大小(7,4,3),步幅(1,1,1) F C Softmax Layer 2 2.2 迁移学习 习中,网络参数的初始值并不是随机的,而是从 卷积神经网络使用反向传播算法进行训练, 已经在更大数据集上训练过的网络模型中复制 其中每一层的参数在迭代中不断更新,以最小化 的,随后再对网络进行微调。 特定的损失函数值。通常,训练之前会用一组随 由于医学影像数据普遍数据量不大且难以获 机值将参数初始化。值得注意的是,网络层数的 取,很多学者探索将迁移学习引入医学图像领 增加会导致网络参数量的增加,这就需要更多的 域。Tajbakhsh等21深入地讨论和比较了在医学 训练数据,以使反向传播算法更好地收敛,如果 图像分析领域中,从零开始的训练网络和引入迁 数据量不够,很容易造成过拟合,使算法陷入局 移学习,并进行微调的结果。研究表明,在大多 部最小值,导致分类性能欠佳。为解决这个问 数情况下,引入迁移学习并进行微调,比从零开 题,一个可行的方法是采取迁移学习。在迁移学 始的训练网络效果更好。目前为止,迁移学习已
每一层的密集连接 (dense connectivity) 都可 表示为 xl = Hl([x0 x1 ··· xl−1]) (2) xl [x0 x1 ··· xl−1] Hl(·) Hl(·) k0 +k×(l−1) k0 式中: 表示第 l 层接收的特征图 (feature map); 表示将第 0,1,···,l−1 层产生的特征 图按 channel 维度连接在一起; 表示复合函 数,由 3 个连续操作组成,即批量归一化操作、线 性整流函数激活,以及 3×3×3 的三维卷积运算。 如果每个 函数产生 k 个特征图,那么第 l 层 输入的特征图总数为 ,其中 代表输 入层的通道数。 式 (2) 中的密集连接操作在特征图大小不一 致时是不可行的,所以在每 2 个 3D-DenseBlock 之间都加入一个过渡层 3D-Transition,包含一个 BN 层、一个 ReLU 层、一个 1×1×1 卷积层,以及 一个均匀池化层 (AvgPool),用来进行特征图降 维。最后,一个 3D-DenseBlock 后面连接一个 ReLU 层、一个 AvgPool 层、一个全连接层 (FC), 以及一个分类器层 (Softmax),用来实现最后的特 征降维和分类。 一个 121 层的 3D-DensNet 网络的具体参数和 架构如表 2 所示,其中每一个 Conv 都代表一个 BN-ReLU-Conv 顺序流程。 表 2 3D-DenseNet 121 网络架构 Table 2 Parameters and architecture of the 3D-DenseNet 121 层 输出尺寸/体素 参数 输入层 1×121×145×121 — 3D-Conv 64×121×73×61 卷积核大小: (7, 7, 7), 步幅:(1, 2, 2) 3D-BN 64×121×73×61 eps: 1e-5, 动量系数: 0.1 ReLU 64×121×73×61 — 3D-MaxPool 64×61×37×31 卷积核大小: (3, 3, 3), 步幅:(1, 1, 1) Dense Block (1) 256×61×37×31 [ 1×1×1 conv 3×3×3 conv ] ×6 3D-Transition 128×61×37×31 1×1×1 conv 128×30×18×15 2×2×2 平均池化, 步幅: 2 Dense Block (2) 512×30×18×15 [ 1×1×1 conv 3×3×3 conv ] ×12 3D-Transition 256×30×18×15 1×1×1 conv 256×15×9×7 2×2×2 平均池化, 步幅: 2 Dense Block (3) 1024×15×9×7 [ 1×1×1 conv 3×3×3 conv ] ×24 3D-Transition 512×15×9×7 1×1×1 conv 512×7×4×3 2×2×2 平均池化, 步幅: 2 Dense Block (4) 1024×7×4×3 [ 1×1×1 conv 3×3×3 conv ] ×16 ReLU 1024×7×4×3 — 3D-AvgPool 1024×1×1×1 卷积核大小: (7, 4, 3), 步幅:(1, 1, 1) F C & Softmax Layer 2 — 2.2 迁移学习 卷积神经网络使用反向传播算法进行训练, 其中每一层的参数在迭代中不断更新,以最小化 特定的损失函数值。通常,训练之前会用一组随 机值将参数初始化。值得注意的是,网络层数的 增加会导致网络参数量的增加,这就需要更多的 训练数据,以使反向传播算法更好地收敛,如果 数据量不够,很容易造成过拟合,使算法陷入局 部最小值,导致分类性能欠佳。为解决这个问 题,一个可行的方法是采取迁移学习。在迁移学 习中,网络参数的初始值并不是随机的,而是从 已经在更大数据集上训练过的网络模型中复制 的,随后再对网络进行微调。 由于医学影像数据普遍数据量不大且难以获 取,很多学者探索将迁移学习引入医学图像领 域。Tajbakhsh 等 [25] 深入地讨论和比较了在医学 图像分析领域中,从零开始的训练网络和引入迁 移学习,并进行微调的结果。研究表明,在大多 数情况下,引入迁移学习并进行微调,比从零开 始的训练网络效果更好。目前为止,迁移学习已 第 3 期 付常洋,等:基于深度学习与结构磁共振成像的抑郁症辅助诊断 ·547·
·548· 智能系统学报 第16卷 被应用于阿尔滋海默症2、脑瘤2和肺结节1等 8组数据共享编码器,并分别使用8个解码器,最 疾病的医学图像分类或分割研究当中,并表现出 后只迁移共用的编码器部分用于肺结节CT图像 了优秀的效果。据我们所知,目前没有任何关于 的分类研究。受Chen等2例的启发,本文设计了 抑郁症医学图像分类的研究使用迁移学习,但所 一个新颖的三维sMRI数据迁移学习框架。在数 有上述研究都证明,将迁移学习应用于医学成像 据选择方面,只收集同一部位(大脑)和同一类型 领域具有巨大的价值,并且与从无到有的训练相 (sMR)的数据进行预训练,并只考虑分类任务。 比,在训练数据集较小的情况下,迁移学习的引 在这3个限制条件下,选择使用开源的老年痴呆 入有可能提高抑郁症sMRI图像分类的精度。 症数据集ADNI(htps:/ida.loni.usc.edu)作为预训 Chen等收集了包括肝脏、心脏等8种不同 练数据。为了实现本文的迁移学习,设计了1个 部位的3D医学图像分割数据集,在训练过程中, 3步处理工作流,如图4所示。 AD uonisue-Ce HC 迁移 MDD Na-dE AuoD-dE uorsueIL-dE 图4 迁移学习架构 Fig.4 Framework of the proposed transfer learning 1)从ADNI数据库中挑选出合适的sMRI数 的学习速率对迁移过后的主干网络进行微调,用 据,包含阿兹海默患者(alzheimer's disease, 较大的学习速率来训练未经过预训练的分类层 AD)、轻度认知障碍(mild cognitive impairment,. 以使传输的网络能够从MDD数据中提取一些新 MC),以及健康对照组(heathy control,HC)3类, 的特征,提高分类性能。 共656个被试者,并用与本文中相同的数据预处 理步骤,对挑选出来的数据进行预处理: 3实验与结果分析 2)用所选数据训练1个三分类的3D-DenseNet 为了验证本文提出方法的有效性,本文精心 网络,让网络学习sMRI数据的特征; 设计了一系列实验,探讨不同深度学习网络以及 3)将训练好的网络模型中的主干网络(图4 三维化相应网络对分类精度的影响,验证所设计 中红框部分)部分迁移到抑郁症sMRI数据的分类 任务中,并添加二分类层,使用本文的抑郁症sMRI 的迁移学习流程的有效性和优越性。 数据继续进行训练,以增强网络的分类性能。 3.1模型评价指标 之所以只从脑部sMRI数据集中选择数据作 本文分类问题为二分类问题,也就是将样本 预训练,是因为如果选择的源域和目标域的相似 分成MDD患者和HC两类,规定MDD患者为正 度太小,很可能会导致负迁移,从而导致性能下 类(positive),HC为负类(negative),分类算法对测 降,即分类准确率不提高反而降低。相反,2个数 试数据集的预测有正确或错误之分,具体包括将 据集越相似,2个数据集的高层特征就越相似,这 正类预测为正类数(true positive,TP)、将正类预测 将产生更好的代表性特征和更适合目标域的预训 为负类数(false negative,FN)、将负类预测为正类 练模型,以提高目标域任务的分类性能。为了进 数(false positive,FP)、将负类预测为负类数(true 行对比实验,在第3步中用相同的过程和相同的 negative,TN)4种情况。针对研究课题的特殊性, 数据训练三维化的ResNet。此外,本文使用较小 本文选取了正确率和召回率2个指标来评价模型
被应用于阿尔兹海默症[26] 、脑瘤[27] 和肺结节[28] 等 疾病的医学图像分类或分割研究当中,并表现出 了优秀的效果。据我们所知,目前没有任何关于 抑郁症医学图像分类的研究使用迁移学习,但所 有上述研究都证明,将迁移学习应用于医学成像 领域具有巨大的价值,并且与从无到有的训练相 比,在训练数据集较小的情况下,迁移学习的引 入有可能提高抑郁症 sMRI 图像分类的精度。 Chen 等 [29] 收集了包括肝脏、心脏等 8 种不同 部位的 3D 医学图像分割数据集,在训练过程中, 8 组数据共享编码器,并分别使用 8 个解码器,最 后只迁移共用的编码器部分用于肺结节 CT 图像 的分类研究。受 Chen 等 [29] 的启发,本文设计了 一个新颖的三维 sMRI 数据迁移学习框架。在数 据选择方面,只收集同一部位 (大脑) 和同一类型 (sMRI) 的数据进行预训练,并只考虑分类任务。 在这 3 个限制条件下,选择使用开源的老年痴呆 症数据集 ADNI(https://ida.loni.usc.edu) 作为预训 练数据。为了实现本文的迁移学习,设计了 1 个 3 步处理工作流,如图 4 所示。 3D-Conv, 3D-BN ReLU, 3D-MaxPool 3D-DenseBlock (1) 3D-Transition 3D-DenseBlock (2) 3D-Transition 3D-DenseBlock (3) 3D-Transition 3D-DenseBlock (4) ReLU, 3D-AvgPool FC, Softmax MCI AD HC AD MCI HC 3D-Conv, 3D-BN ReLU, 3D-MaxPool 3D-DenseBlock (1) 3D-Transition 3D-DenseBlock (2) 3D-Transition 3D-DenseBlock (3) 3D-Transition 3D-DenseBlock (4) ReLU, 3D-AvgPool FC, Softmax MDD HC 迁移 MDD HC 图 4 迁移学习架构 Fig. 4 Framework of the proposed transfer learning 1) 从 ADNI 数据库中挑选出合适的 sMRI 数 据,包含阿兹海默患者 (alzheimer’s disease, AD)、轻度认知障碍 (mild cognitive impairment, MCI),以及健康对照组 (heathy control, HC)3 类, 共 656 个被试者,并用与本文中相同的数据预处 理步骤,对挑选出来的数据进行预处理; 2) 用所选数据训练 1 个三分类的 3D-DenseNet 网络,让网络学习 sMRI 数据的特征; 3) 将训练好的网络模型中的主干网络 (图 4 中红框部分) 部分迁移到抑郁症 sMRI 数据的分类 任务中,并添加二分类层,使用本文的抑郁症 sMRI 数据继续进行训练,以增强网络的分类性能。 之所以只从脑部 sMRI 数据集中选择数据作 预训练,是因为如果选择的源域和目标域的相似 度太小,很可能会导致负迁移,从而导致性能下 降,即分类准确率不提高反而降低。相反,2 个数 据集越相似,2 个数据集的高层特征就越相似,这 将产生更好的代表性特征和更适合目标域的预训 练模型,以提高目标域任务的分类性能。为了进 行对比实验,在第 3 步中用相同的过程和相同的 数据训练三维化的 ResNet。此外,本文使用较小 的学习速率对迁移过后的主干网络进行微调,用 较大的学习速率来训练未经过预训练的分类层, 以使传输的网络能够从 MDD 数据中提取一些新 的特征,提高分类性能。 3 实验与结果分析 为了验证本文提出方法的有效性,本文精心 设计了一系列实验,探讨不同深度学习网络以及 三维化相应网络对分类精度的影响,验证所设计 的迁移学习流程的有效性和优越性。 3.1 模型评价指标 本文分类问题为二分类问题,也就是将样本 分成 MDD 患者和 HC 两类,规定 MDD 患者为正 类 (positive),HC 为负类 (negative),分类算法对测 试数据集的预测有正确或错误之分,具体包括将 正类预测为正类数 (true positive, TP)、将正类预测 为负类数 (false negative, FN)、将负类预测为正类 数 (false positive, FP)、将负类预测为负类数 (true negative, TN)4 种情况。针对研究课题的特殊性, 本文选取了正确率和召回率 2 个指标来评价模型 ·548· 智 能 系 统 学 报 第 16 卷