第13卷第1期 智能系统学报 Vol.13 No.I 2018年2月 CAAI Transactions on Intelligent Systems Feb.2018 D0:10.11992/tis.201703023 网络出版t地址:http:/kns.cnki.net/cms/detail/23.1538.TP.20170702.1547.030.html 基于最大最小距离的高光谱遥感图像波段选择 王立国,赵亮,石瑶 (哈尔滨工程大学信息与通信工程学院,黑龙江哈尔滨150001) 摘要:为诚少高光谱遥感图像光谱空间冗余,降低后续处理的计算复杂度,提出一种基于最大最小距离的高光谱图 像波段选择算法。首先计算波段标准差,选定标准差最大的波段作为初始中心:然后使用最大最小距离算法得到相 对距离较远的聚类中心,对波段进行聚类;最后使用K中心点算法更新聚类中心。实验仿真结果表明:通过基于最 大最小距离算法选择的波段,能够选出同时满足信息量大、相关性小的要求的波段子集,并将获得的波段组合用于高 光谱图像分类时,可以得到较好的分类精度。 关键词:高光谱遥感:波段选择:波段聚类:无监督:最大最小距离算法:K-medoids聚类:最大似然法:分类 中图分类号:TN911.73.TP391文献标志码:A 文章编号:1673-4785(2018)01-0131-07 中文引用格式:王立国,赵亮,石瑶.基于最大最小距离的高光谱遥感图像波段选择.智能系统学报,2018.13(1):131-137. 英文引用格式:WANG Liguo,ZHAO Liang,SHI Yao.Maximin distance algorithm-based band selection for hyperspectral im- ageryJ.CAAI transactions on intelligent systems,2018,13(1):131-137. Maximin distance algorithm-based band selection for hyperspectral imagery WANG Liguo,ZHAO Liang,SHI Yao (College of Information and Communication Engineering.Harbin Engineering University,Harbin 150001,China) Abstract:In this paper,we propose a hyperspectral-image band-selection algorithm based on the maximin distance to reduce the spectral redundancy of hyperspectral remote sensing images as well as the associated computational comple- xity.First,the algorithm computes the standard deviation of all bands and selects the one with the maximum standard deviation as the initial center.Then,to cluster the bands,we use the maximin distance algorithm to obtain centers that are relatively farther away.Finally,we use the k-medoids algorithm to update the clustering center.The experimental results show that the bands selected by the maximin distance algorithm can satisfy the demands associated with a large amount of information and relatively low correlation.At the same time,when the obtained bands are combined for hyperspectral image classification,higher classification accuracy can be achieved. Keywords:hyperspectral images;band selection;band clustering;unsupervised;maximin distance;K-medoids cluster- ing:maximum likelihood method;classification 随着遥感技术的快速发展,高光谱图像分析也中,降维是其重要环节。遥感数据降维有两种方 有了重大进展。高光谱数据因其波段众多可以提供 法:特征提取和波段选择。特征提取是用映射的方 地物更精确详尽的信息,但与此同时也带来了信息 法将原始数据变换为较少的新特征,常用的方法有 冗余,因而在对数据分析时会产生较高的计算复杂 主成分分析、独立成分分析、局部线性嵌入等引。 度以及Hughes现象,所以在高光谱图像处理过程 与特征提取不同,波段选择依据高光谱遥感数据的 特点从原始数据集中选择合适的波段子集,在不改 收稿日期:2017-03-17.网络出版日期:2017-07-02. 基金项目:国家白然科学基金项目(61675051):国家教育部博士点 变原始数据的物理意义及光谱特性的同时降低数据 基金项目(20132304110007):黑龙江省自然科学基金项 目(F201409) 维度,是一种有效的高光谱图像降维技术。 通信作者:王立国.E-mail:wangliguo@hrbeu.edu.cn. 按照先验信息的有无,高光谱图像波段选择方
DOI: 10.11992/tis.201703023 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20170702.1547.030.html 基于最大最小距离的高光谱遥感图像波段选择 王立国,赵亮,石瑶 (哈尔滨工程大学 信息与通信工程学院,黑龙江 哈尔滨 150001) 摘 要:为减少高光谱遥感图像光谱空间冗余,降低后续处理的计算复杂度,提出一种基于最大最小距离的高光谱图 像波段选择算法。首先计算波段标准差,选定标准差最大的波段作为初始中心;然后使用最大最小距离算法得到相 对距离较远的聚类中心,对波段进行聚类;最后使用 K 中心点算法更新聚类中心。实验仿真结果表明:通过基于最 大最小距离算法选择的波段,能够选出同时满足信息量大、相关性小的要求的波段子集,并将获得的波段组合用于高 光谱图像分类时,可以得到较好的分类精度。 关键词:高光谱遥感;波段选择;波段聚类;无监督;最大最小距离算法;K-medoids 聚类;最大似然法;分类 中图分类号:TN911.73,TP391 文献标志码:A 文章编号:1673−4785(2018)01−0131−07 中文引用格式:王立国, 赵亮, 石瑶. 基于最大最小距离的高光谱遥感图像波段选择[J]. 智能系统学报, 2018, 13(1): 131–137. 英文引用格式:WANG Liguo, ZHAO Liang, SHI Yao. Maximin distance algorithm-based band selection for hyperspectral imagery[J]. CAAI transactions on intelligent systems, 2018, 13(1): 131–137. Maximin distance algorithm-based band selection for hyperspectral imagery WANG Liguo,ZHAO Liang,SHI Yao (College of Information and Communication Engineering, Harbin Engineering University, Harbin 150001, China) Abstract: In this paper, we propose a hyperspectral-image band-selection algorithm based on the maximin distance to reduce the spectral redundancy of hyperspectral remote sensing images as well as the associated computational complexity. First, the algorithm computes the standard deviation of all bands and selects the one with the maximum standard deviation as the initial center. Then, to cluster the bands, we use the maximin distance algorithm to obtain centers that are relatively farther away. Finally, we use the k-medoids algorithm to update the clustering center. The experimental results show that the bands selected by the maximin distance algorithm can satisfy the demands associated with a large amount of information and relatively low correlation. At the same time, when the obtained bands are combined for hyperspectral image classification, higher classification accuracy can be achieved. Keywords: hyperspectral images; band selection; band clustering; unsupervised; maximin distance; K-medoids clustering; maximum likelihood method; classification 随着遥感技术的快速发展,高光谱图像分析也 有了重大进展。高光谱数据因其波段众多可以提供 地物更精确详尽的信息,但与此同时也带来了信息 冗余,因而在对数据分析时会产生较高的计算复杂 度以及 Hughes 现象,所以在高光谱图像处理过程 中,降维是其重要环节。遥感数据降维有两种方 法:特征提取和波段选择。特征提取是用映射的方 法将原始数据变换为较少的新特征,常用的方法有 主成分分析、独立成分分析、局部线性嵌入等[1-3]。 与特征提取不同,波段选择依据高光谱遥感数据的 特点从原始数据集中选择合适的波段子集,在不改 变原始数据的物理意义及光谱特性的同时降低数据 维度,是一种有效的高光谱图像降维技术。 按照先验信息的有无,高光谱图像波段选择方 收稿日期:2017−03−17. 网络出版日期:2017−07−02. 基金项目:国家自然科学基金项目 (61675051);国家教育部博士点 基金项目 (20132304110007);黑龙江省自然科学基金项 目 (F201409). 通信作者:王立国. E-mail:wangliguo@hrbeu.edu.cn. 第 13 卷第 1 期 智 能 系 统 学 报 Vol.13 No.1 2018 年 2 月 CAAI Transactions on Intelligent Systems Feb. 2018
·132· 智能系统学报 第13卷 法可分为监督波段选择和无监督波段选择。监督 波段,对噪声敏感,且每类中随机选取的波段不一 波段选择一般用一个准则函数来衡量已选波段与带 定能够最好地代表所在的类。基于AP算法的波段 标签数据之间的相似度,然后通过一些优化策略来 选择方法将每个样本点都视为候选类代表点,不受 搜索最优波段子集。无监督波段选择则只需要地 初始点选择的困扰,但相似矩阵的计算复杂度较 物的原始高光谱图像信息,而无需带标签样本,因 高。而最大最小距离算法是一种基于试探的聚类算 而更具有普适性,因此本文主要研究无监督的波段 法,它以某种距离作为衡量标准,采用相距尽量远 选择。 的样本作为聚类中心点,可以避免随机选取的初始 无监督的波段选择方法一般可分为如下儿 聚类中心相距太近的情况。针对现有波段选择方 类:一类是按照信息量以及波段间相关程度排序的 法的不足,本文提出了一种基于最大最小距离的波 方法,一类是基于聚类的方法,此外由于端元选择 段选择方法,该方法通过迭代计算得到一组初始的 与波段选择问题在模型上具有共性,一些端元选择 距离较远的波段子集,然后以这些波段为基础进行 方法也用于波段选择中向。最大方差主成分分析方 聚类更新,获取具有代表性的波段子集。 (maximum-variance principle component analysis, 1波段聚类的基础 MVPCA)是一种经典的基于信息量的方法,它利用 PCA变换获取各波段的方差,将方差作为信息量的 高光谱数据的特点是具有极高的光谱分辨率, 考量标准,然后按照方差的大小进行排序,以确定 其相邻波段间具有较强的相关性,这里的谱间相关 波段的优先级m。基于信息散度(information diver- 性就是指,对空间上某一相同位置,相邻波段的波 gence,.ID)的波段选择方法是用信息散度对全波段 段图像具有相似性。具有这种相似的原因主要是: 计算概率密度分布与其所对应的高斯分布的偏离 同一地物在相邻波段的光反射率是非常相近的,因 度,按照偏离度从大到小的顺序对波段进行排序, 此产生了一定的相关性。这种相关性可以用相关系 得到所需数目的波段子集⑧。但鉴于高光谱数据的 数矩阵来描述,以AVIRIS采集的印第安农林数 相邻波段具有较大相关性,按照信息量排序所选定 据为例,计算其相关系数矩阵和相关系数向量,并 的某波段,其相邻的波段也极有可能具有相近的信 将得到的矩阵和向量进行可视化,如图1。 息量,因此也会被选入波段子集,造成冗余。于是, 1.0 些同时考虑信息量与相关系数的无监督波段选 0.9 择方法被提出来,如最佳指数因子(optimal index 数0.8 0.7 factor,.OIF)法计算波段的方差与相关系数的比值, 0.6 再用这个数值来衡量波段的优先次序。但是OI正 0.5 方法需要多次计算波段间的OIF,因此计算量庞 0.4 0 50100.150200 大。自适应波段选择方法(adaptive band selection, 波段序号 (a)相关性矩阵 ABS)与OIF方法类似,采用标准差与相关系数的 (b)相关性向量 比值作为考量标准,但较之OIF,ABS只计算相邻 图1 Indian数据谱间相关性的可视化 波段的相关系数,虽然计算复杂度较低,却忽视了 Fig.1 Visualization of spectral correlation of Indian Pines 所选波段子集的整体相关性。近些年,一些学者 图1中,(a)是以灰度图像的形式呈现,由灰度 用聚类的方法进行波段选择,即将波段按照某衡量 图像的取值特点可知,越明亮的区域其相关系数越 准则分成多个子集,用聚类中心代表子集内的其他 大,而明亮区域主要集中于主对角线,因此可以说 波段,聚类数目根据所需的波段数确定。具有代表 明相邻波段间的相关性更强,而从图1(b)可以直观 性的方法如基于K均值(K-means)算法的波段选 看到相关性较强的各个波段范围。鉴于高光谱图像 择,基于谱聚类(spectral clustering,.SC)的波段选 波段间具有的这种聚集特性,可以将其看作波段聚 择,使用仿射传播(affinity propagation,AP)的波段 选择等0。K均值算法简单易行,但是容易受初 类问题,即将波段划分为具有相似特性的波段组成 的集合,选择这些波段集合中具有代表性的聚类中 值影响,并且所选择的聚类中心是算术平均的位 置,需要进一步处理。基于K-medoids的聚类直接 心,就可以得到数据的一个波段子集,从而完成波 选取候选波段作为波段的聚类中心,具有很好的鲁 段选择过程。 棒性,但该方法同样易受初始值影响,随着初值的 2基于最大最小距离的波段选择 不同而导致最后的聚类中心不同。基于$C的波段 选择方法采用类内波段算术均值而非现实中存在的 最大最小距离法是模式识别中一种基于试探的
法可分为监督波段选择和无监督波段选择[4]。监督 波段选择一般用一个准则函数来衡量已选波段与带 标签数据之间的相似度,然后通过一些优化策略来 搜索最优波段子集[5]。无监督波段选择则只需要地 物的原始高光谱图像信息,而无需带标签样本,因 而更具有普适性,因此本文主要研究无监督的波段 选择。 无监督的波段选择方法一般可分为如下几 类:一类是按照信息量以及波段间相关程度排序的 方法,一类是基于聚类的方法,此外由于端元选择 与波段选择问题在模型上具有共性,一些端元选择 方法也用于波段选择中[6]。最大方差主成分分析方 法 (maximum-variance principle component analysis, MVPCA) 是一种经典的基于信息量的方法,它利用 PCA 变换获取各波段的方差,将方差作为信息量的 考量标准,然后按照方差的大小进行排序,以确定 波段的优先级[7]。基于信息散度 (information divergence, ID) 的波段选择方法是用信息散度对全波段 计算概率密度分布与其所对应的高斯分布的偏离 度,按照偏离度从大到小的顺序对波段进行排序, 得到所需数目的波段子集[8]。但鉴于高光谱数据的 相邻波段具有较大相关性,按照信息量排序所选定 的某波段,其相邻的波段也极有可能具有相近的信 息量,因此也会被选入波段子集,造成冗余。于是, 一些同时考虑信息量与相关系数的无监督波段选 择方法被提出来,如最佳指数因子 (optimal index factor, OIF) 法计算波段的方差与相关系数的比值, 再用这个数值来衡量波段的优先次序。但是 OIF 方法需要多次计算波段间的 OIF,因此计算量庞 大。自适应波段选择方法 (adaptive band selection, ABS) 与 OIF 方法类似,采用标准差与相关系数的 比值作为考量标准,但较之 OIF,ABS 只计算相邻 波段的相关系数,虽然计算复杂度较低,却忽视了 所选波段子集的整体相关性[9]。近些年,一些学者 用聚类的方法进行波段选择,即将波段按照某衡量 准则分成多个子集,用聚类中心代表子集内的其他 波段,聚类数目根据所需的波段数确定。具有代表 性的方法如基于 K 均值 (K-means) 算法的波段选 择,基于谱聚类 (spectral clustering, SC) 的波段选 择,使用仿射传播 (affinity propagation, AP) 的波段 选择等[10-12]。K 均值算法简单易行,但是容易受初 值影响,并且所选择的聚类中心是算术平均的位 置,需要进一步处理。基于 K-medoids 的聚类直接 选取候选波段作为波段的聚类中心,具有很好的鲁 棒性,但该方法同样易受初始值影响,随着初值的 不同而导致最后的聚类中心不同。基于 SC 的波段 选择方法采用类内波段算术均值而非现实中存在的 波段,对噪声敏感,且每类中随机选取的波段不一 定能够最好地代表所在的类。基于 AP 算法的波段 选择方法将每个样本点都视为候选类代表点,不受 初始点选择的困扰,但相似矩阵的计算复杂度较 高。而最大最小距离算法是一种基于试探的聚类算 法,它以某种距离作为衡量标准,采用相距尽量远 的样本作为聚类中心点,可以避免随机选取的初始 聚类中心相距太近的情况[13]。针对现有波段选择方 法的不足,本文提出了一种基于最大最小距离的波 段选择方法,该方法通过迭代计算得到一组初始的 距离较远的波段子集,然后以这些波段为基础进行 聚类更新,获取具有代表性的波段子集。 1 波段聚类的基础 高光谱数据的特点是具有极高的光谱分辨率, 其相邻波段间具有较强的相关性,这里的谱间相关 性就是指,对空间上某一相同位置,相邻波段的波 段图像具有相似性。具有这种相似的原因主要是: 同一地物在相邻波段的光反射率是非常相近的,因 此产生了一定的相关性。这种相关性可以用相关系 数矩阵来描述[14] ,以 AVIRIS 采集的印第安农林数 据为例,计算其相关系数矩阵和相关系数向量,并 将得到的矩阵和向量进行可视化,如图 1。 图 1 中,(a) 是以灰度图像的形式呈现,由灰度 图像的取值特点可知,越明亮的区域其相关系数越 大,而明亮区域主要集中于主对角线,因此可以说 明相邻波段间的相关性更强,而从图 1(b) 可以直观 看到相关性较强的各个波段范围。鉴于高光谱图像 波段间具有的这种聚集特性,可以将其看作波段聚 类问题,即将波段划分为具有相似特性的波段组成 的集合,选择这些波段集合中具有代表性的聚类中 心,就可以得到数据的一个波段子集,从而完成波 段选择过程。 2 基于最大最小距离的波段选择 最大最小距离法是模式识别中一种基于试探的 0 50 100 150 200 0.4 0.5 0.6 0.7 0.8 0.9 1.0 (a) Ⱔڟᕓⴕ䭡 Ⱔڟ㈧ (b) Ⱔڟᕓऽ䛻 ∎⃡Ꮋण 图 1 Indian 数据谱间相关性的可视化 Fig. 1 Visualization of spectral correlation of Indian Pines ·132· 智 能 系 统 学 报 第 13 卷
第1期 王立国,等:基于最大最小距离的高光谱遥感图像波段选择 ·133· 聚类算法,它以欧氏距离为基础,取尽可能远的对 组波段,在原本的最大最小距离算法中会将这组 象作为聚类中心。因此它可以避免K-means算法 波段作为聚类中心,然后计算其他波段与这些中心 初值选取时可能出现的聚类种子过于临近的情况, 的距离,以距离最小为原则划分类别。虽然这些波 它不仅能智能确定初始聚类种子的个数,而且提高 段间的区分度较高,但会导致聚类中心与簇内相距 了划分初始数据集的效率。所以,本文尝试利用最 较远波段的相关性较低,而对于波段选择来说,其 大最小距离法进行高光谱图像的波段选择,以方差 最终得到的应该是具有代表性的波段,也就是说, 最大的波段作为第一个聚类中心,不断迭代计算最 该波段到簇内其他波段间的代价函数应该最小。 大最小距离获取所需数目的聚类中心集合,进而对 因此将这些“激进”但区分度又高的波段组合作为一 集合外的剩余波段聚类,最后以K-medoids方法对 个初始的聚类中心,然后采用对噪声较不敏感的 聚类中心进行更新,获取最终波段子集,具体描述 K-medoids算法更新聚类中心,得到最终的波段组合。 如下。 具体的步骤如下: 2.1初始化聚类中心 1)选择B作为初始中心点; 2.1.1第一个聚类中心的选取 2)计算B中剩余波段与B,中各波段的距离,以 在数据处理上,高光谱图像用集合B={b1,b2,…,b} 距离最小为准则进行分配: 表示,其中,n为波段个数,b.(i=1,2,,m)为m行的 3)在每一个类内,选择代价函数最小的波段作 列向量,代表第i个波段,m为波段图像包含的像素 为新的聚类中心 个数,则波段i的标准差值为 4)重复2)、3)直至各类的中心点稳定,此时算 /m)∑a-4 (1) 法结束。 算法的整体流程如下。 式中为波段1的均值,即 算法基于最大最小距离的波段选择方法 4=(1/m)>b (2) 输入给定所需的波段数目k。 1)根据式(1)、(2)计算每个波段的标准差s,取 波段均值4,可以用于表征波段i各地物的平均 标准差最大的波段作为1个聚类中心B: 强度:波段标准差s,可以反应波段中像素强度与均 2)计算剩余波段与B,间距离,取距离最小的波 值的偏离程度,一定程度上反映各波段图像的信息 段作为第2个聚类中心B2: 量,图像标准差越大,其所包含的信息越丰富,因此 3)当心2时,按照式(5)迭代选择剩余的聚类 可以采用标准差值定量表示波段包含的信息量,并 中心,B,更新为B1,B2,,B} 用标准差最大的波段作为最大最小距离算法第1个 4)以最近邻原则将B中剩余波段划分给B,中 聚类中心B1。 的各个聚类中心 2.1.2其他聚类中心的迭代选取 5)用K-medoids算法更新聚类中心B,输出最 设最大最小距离算法最后得到的聚类中心为集 终的波段组合。 合B={B1,B2,…,B,其中k为聚类中心个数,即所 选波段个数。根据2.1.1节的结果可知,第1个初始 3实验与分析 聚类中心B可表示为 B arg max s (3) 为验证本文算法的有效性,采用真实高光谱数 则B,=(B1。然后计算B中其他波段与B的距离, 据进行了仿真实验,同时与基于K-medoids,.基于AP, 选择距离最大的波段作为第2个类的聚类中心B2, 以及基于ABS的典型波段选择算法进行比较。第 可表示为 1种和第2种是基于聚类方法的波段选择,第3种 B2 arg maxd(bi,B1) (4) 是同时考量了信息量与相关性的波段选择方法。实 这里d(表示某种距离测度,则B,更新为{B1,B2la 验环境为AMD双核处理器,主频2.47Hz,有效内 当k大于2时,则第k个聚类中心B:为B中剩 存3GB,开发环境为MATLAB R2008a。 余波段中b:与B,中的波段的最大最小距离,表示为 实验数据为去除噪声波段的200波段的AVIRIS B&=arg maxd(b,MNk-i) (5) 印第安农林数据和103波段的ROSIS帕维亚大学 式中MNk-1=min{d(b,B1),db,B2),…,db,Bk-i)},此 数据: 时B,更新为{B1,B2,,B}。 1)印第安农林数据的波长范围为0.4~2.5um, 2.2更新聚类中心 空间分辨率为17m,共有144×144个像素点。数据 通过最大最小距离方法得到了相互距离较远的 中剔除背景共包含16类地物,主要农作物是生长
聚类算法,它以欧氏距离为基础,取尽可能远的对 象作为聚类中心。因此它可以避免 K-means 算法 初值选取时可能出现的聚类种子过于临近的情况, 它不仅能智能确定初始聚类种子的个数,而且提高 了划分初始数据集的效率。所以,本文尝试利用最 大最小距离法进行高光谱图像的波段选择,以方差 最大的波段作为第一个聚类中心,不断迭代计算最 大最小距离获取所需数目的聚类中心集合,进而对 集合外的剩余波段聚类,最后以 K-medoids 方法对 聚类中心进行更新,获取最终波段子集,具体描述 如下。 2.1 初始化聚类中心 2.1.1 第一个聚类中心的选取 B={b1,b2,···,bn} bi(i = 1,2,···,m) 在数据处理上,高光谱图像用集合 表示,其中,n 为波段个数, 为 m 行的 列向量,代表第 i 个波段,m 为波段图像包含的像素 个数,则波段 i 的标准差值为 si = (1/m) ∑m l=1 (bil −µi) 2 1/2 (1) 式中 µi为波段 i 的均值,即 µi = (1/m) ∑m l=1 bil (2) µi si B1 波段均值 可以用于表征波段 i 各地物的平均 强度;波段标准差 可以反应波段 i 中像素强度与均 值的偏离程度,一定程度上反映各波段图像的信息 量,图像标准差越大,其所包含的信息越丰富,因此 可以采用标准差值定量表示波段包含的信息量,并 用标准差最大的波段作为最大最小距离算法第 1 个 聚类中心 。 2.1.2 其他聚类中心的迭代选取 Bs = {B1,B2,···,Bk} B1 设最大最小距离算法最后得到的聚类中心为集 合 ,其中 k 为聚类中心个数,即所 选波段个数。根据 2.1.1 节的结果可知,第 1 个初始 聚类中心 可表示为 B1 = argmax si (3) Bs = {B1} B1 B2 则 。然后计算 B 中其他波段与 的距离, 选择距离最大的波段作为第 2 个类的聚类中心 , 可表示为 B2 = argmaxd (bi ,B1) (4) 这里 d (·) 表示某种距离测度, 则 Bs更新为 {B1,B2}。 Bk bi Bs 当 k 大于 2 时,则第 k 个聚类中心 为 B 中剩 余波段中 与 中的波段的最大最小距离,表示为 Bk = argmaxd (bi ,MINk−1) (5) MINk−1 = min{d(bi ,B1),d(bi ,B2),···,d(bi ,Bk−1)} Bs {B1,B2,···,Bk} 式中 ,此 时 更新为 。 2.2 更新聚类中心 通过最大最小距离方法得到了相互距离较远的 一组波段,在原本的最大最小距离算法中会将这组 波段作为聚类中心,然后计算其他波段与这些中心 的距离,以距离最小为原则划分类别。虽然这些波 段间的区分度较高,但会导致聚类中心与簇内相距 较远波段的相关性较低,而对于波段选择来说,其 最终得到的应该是具有代表性的波段,也就是说, 该波段到簇内其他波段间的代价函数应该最小。 因此将这些“激进”但区分度又高的波段组合作为一 个初始的聚类中心,然后采用对噪声较不敏感的 K-medoids 算法更新聚类中心,得到最终的波段组合。 具体的步骤如下: 1) 选择 Bs作为初始中心点; 2) 计算 B 中剩余波段与 Bs中各波段的距离,以 距离最小为准则进行分配; 3) 在每一个类内,选择代价函数最小的波段作 为新的聚类中心; 4) 重复 2)、3) 直至各类的中心点稳定,此时算 法结束。 算法的整体流程如下。 算法 基于最大最小距离的波段选择方法 输入 给定所需的波段数目 k。 B1 1) 根据式 (1)、(2) 计算每个波段的标准差 si,取 标准差最大的波段作为 1 个聚类中心 ; B1 B2 2) 计算剩余波段与 间距离,取距离最小的波 段作为第 2 个聚类中心 ; Bs {B1,B2,···,Bk} 3) 当 k>2 时,按照式 (5) 迭代选择剩余的聚类 中心, 更新为 ; 4) 以最近邻原则将 B 中剩余波段划分给 Bs中 的各个聚类中心; 5) 用 K-medoids 算法更新聚类中心 Bs,输出最 终的波段组合。 3 实验与分析 为验证本文算法的有效性,采用真实高光谱数 据进行了仿真实验,同时与基于 K-medoids,基于 AP, 以及基于 ABS 的典型波段选择算法进行比较。第 1 种和第 2 种是基于聚类方法的波段选择,第 3 种 是同时考量了信息量与相关性的波段选择方法。实 验环境为 AMD 双核处理器,主频 2.47 Hz,有效内 存 3 GB,开发环境为 MATLAB R2008a。 实验数据为去除噪声波段的 200 波段的 AVIRIS 印第安农林数据和 103 波段的 ROSIS 帕维亚大学 数据: 1) 印第安农林数据的波长范围为 0.4~2.5 μm, 空间分辨率为 17 m,共有 144×144 个像素点。数据 中剔除背景共包含 16 类地物,主要农作物是生长 第 1 期 王立国,等:基于最大最小距离的高光谱遥感图像波段选择 ·133·
·134· 智能系统学报 第13卷 期的玉米和大豆,结合地面实际测量数据,其中 3.1评价标准 7种地物样本量过少,对于该数据不具有代表性,因 对于高光谱遥感图像,一般评价所选波段组合 此选取另9种样本数目较多的主要类型地物用于 的优劣主要是面向应用的角度,其中地物的分类是 实验。 一个重要的应用方法,因此本文以总体分类精度(ov心 2)帕维亚大学数据波长范围为0.43~0.86um, rall accuracy,.OA)为主评价波段选择方法的质量,同 空间分辨率为1.3m,共有610×340个像素点,共包 时辅助地考虑波段子集的平均相关性、信息贡献率、 含9类地物,实验中9种地物均用于实验。两组数 最佳指数(optimum index factor,OF),计算公式为 据所对应的地物真实情况如图2、图3所示,9种地 (6) 物类型及数目如表1所示。 扣1i+1 式中:C为样本总数,R为波段1和波段j的相关系 数,计算公式为 (-)x-) R (7) k=1 (a)假彩色图像 (b)地物真实图 式中:x:=[x1x2…xnJ为第i(i=1,2,…,m)个波段, 是第i个波段的均值。选择的m个波段的信息量 图2 Indian数据 贡献为 Fig.2 Land covers at Indian pines g 8=1 OR.(m)= ×100% (8) ∑ 式中:n为波段总数,m为所选波段的个数,通常 m≤n,入(g=1,2,…,m)是所选波段经主成分变换后 的特征值;4(k=1,2,,n)是全波段主成分变换得到 的特征值。 i=1 (9) R 式中:S,是第i波段的标准差。 (a)假彩色图像 (b)地物真实图 ∑m# O0A= (10) C 图3 PaviaU数据 式中:m:为第i类测试样本被正确分类的样本数, Fig.3 Land covers at university of Pavia c为样本类别数 表1印第安农林数据和帕维亚大学数据地物类别 3.2结果分析 Table 1 Land covers at Indian pines and university of pavia 为定量比较几种波段选择方法随所选波段数目 印第安农林数据 帕维亚大学数据 的变化趋势,所以选择连续变化的波段数目。分类 地物类别(数目) 地物类别(数目) 采用最大似然分类法,训练样本数目与测试样本数 Corn-notill (1 434) Asphalt(6 641) 目各占总样本数目的一半。同时,也将只进行最大 Corn-min(834) Meadows (18 649) 最小距离选择而未更新聚类中心的结果进行比较, Grass/Pasture (497) Gravel (2 099) 在效果评价图中用MMD表示,本文算法记作MM: Soybeans-notill (968) Trees (3064) DK。各波段选择算法在两组数据上所选波段子集 Soybeans-clean (614) Metal Sheets (1 345) 的总体分类精度、最佳指数、信息贡献率、平均相关 性和总体分类精度的结果分别绘制于图4、5中。下 Grass/Trees(747) Soil(5029) 面分别对两组数据的实验结果进行分析。 Hay-windrowed(489) Bitumen(1 330) 3.2.1 Indian数据集 Soybeans-min(2 468) Bricks(3 682) Indian数据集所选的波段数目为5~l5,从两方 Woods(1 294) Shadows(947) 面分析各算法在该数据集上所选波段的性能
期的玉米和大豆,结合地面实际测量数据,其中 7 种地物样本量过少,对于该数据不具有代表性,因 此选取另 9 种样本数目较多的主要类型地物用于 实验。 2) 帕维亚大学数据波长范围为 0.43~0.86 μm, 空间分辨率为 1.3 m,共有 610×340 个像素点,共包 含 9 类地物,实验中 9 种地物均用于实验。两组数 据所对应的地物真实情况如图 2、图 3所示,9 种地 物类型及数目如表 1 所示。 3.1 评价标准 对于高光谱遥感图像,一般评价所选波段组合 的优劣主要是面向应用的角度,其中地物的分类是 一个重要的应用方法,因此本文以总体分类精度 (overall accuracy, OA) 为主评价波段选择方法的质量,同 时辅助地考虑波段子集的平均相关性、信息贡献率、 最佳指数 (optimum index factor, OIF),计算公式为 R = 1 C2 ∑m−1 i=1 ∑m j=i+1 Ri j (6) 式中:C 为样本总数,Rij 为波段 i 和波段 j 的相关系 数,计算公式为 Ri j = ∑n k=1 (xik − x¯i) ( xjk − x¯j ) √ ∑n k=1 (xik − x¯i) 2 ∑n k=1 ( xjk − x¯j )2 (7) xi = [xi1 xi2 ··· xin] T i(i = 1,2,··· ,m) x¯i 式中: 为第 个波段, 是第 i 个波段的均值。选择的 m 个波段的信息量 贡献为 oRvar (m) = ∑m g=1 λg ∑n k=1 λk ×100% (8) m ⩽ n λg (g = 1,2,···,m) λk(k = 1,2,···,n) 式中:n 为波段总数,m 为所选波段的个数,通常 , 是所选波段经主成分变换后 的特征值; 是全波段主成分变换得到 的特征值。 OOIF = ∑n i=1 S i ∑n i=1 ∑n j=1 Ri j (9) 式中:Si 是第 i 波段的标准差。 OOA = ∑c i=1 mii C (10) 式中:mii 为第 i 类测试样本被正确分类的样本数, c 为样本类别数[15]。 3.2 结果分析 为定量比较几种波段选择方法随所选波段数目 的变化趋势,所以选择连续变化的波段数目。分类 采用最大似然分类法,训练样本数目与测试样本数 目各占总样本数目的一半。同时,也将只进行最大 最小距离选择而未更新聚类中心的结果进行比较, 在效果评价图中用 MMD 表示,本文算法记作 MMDK。各波段选择算法在两组数据上所选波段子集 的总体分类精度、最佳指数、信息贡献率、平均相关 性和总体分类精度的结果分别绘制于图 4、5 中。下 面分别对两组数据的实验结果进行分析。 3.2.1 Indian 数据集 Indian 数据集所选的波段数目为 5~15,从两方 面分析各算法在该数据集上所选波段的性能。 表 1 印第安农林数据和帕维亚大学数据地物类别 Table 1 Land covers at Indian pines and university of pavia 印第安农林数据 地物类别(数目) 帕维亚大学数据 地物类别(数目) Corn-notill (1 434) Asphalt (6 641) Corn-min (834) Meadows (18 649) Grass/Pasture (497) Gravel (2 099) Soybeans-notill (968) Trees (3 064) Soybeans-clean (614) Metal Sheets (1 345) Grass/Trees (747) Soil (5 029) Hay-windrowed (489) Bitumen (1 330) Soybeans-min (2 468) Bricks (3 682) Woods (1 294) Shadows (947) (a) ۇٴᖙ㢢മۿ) b) ൠ⢙ⵏᇎമ 图 2 Indian 数据 Fig. 2 Land covers at Indian pines (a) ۇٴᖙ㢢മۿ) b) ൠ⢙ⵏᇎമ 图 3 PaviaU 数据 Fig. 3 Land covers at university of Pavia ·134· 智 能 系 统 学 报 第 13 卷
第1期 王立国,等:基于最大最小距离的高光谱遥感图像波段选择 ·135· 0.90 的增加具有波动性,再一次证明初始聚类中心对于 0.85 保证波段选择效果的重要性。 0.80 1.00 0.95 0.90 0.65 A medoids AP 0.60 MD 0.55 --MMDK 0.70 -MMDK 5 6 7 891011121314 所选波段数目 0.65 )不同波段数对应的分类精度 4 678910111213 *10 所选波段数目日 (a)不同波段数对应的分类精度 AP 4.0 medoids 3.51 2.0,*106 MMDK ◆-A 25 medoids 1.5 1.5 1.0 0.5 0.5 0 6 7 89101112131415 所选波段数目 ()不同波段数对应的最佳指数 4 5 678910111213 所选波段数日 0.25 (b)不同波段数对应的最佳指数 AP 0.20 nedoids 0.16 0.14 AP MDK 0.15 edoids 购0.10 0.10 MMDK 0.05 0.06 0 89101112131415 0.04 5 67. 所选波段数目 0.02 4 5678910111213 (c)不同波段数对应的信息量贡献率 所选波段数目 0.85 (©)不同波段数对应的信息量贡献率 AP 0.80 0.70 0.65 075 -MMDK 0.60 0.70 0.55 0.65 0.60 0.40 D 0.55 0.35 MMDK 0.50 3 4 5678910111213 5 6 89101112131415 所选波段数目 所选波段数目 (d不同波段数对应的平均相关性 (d不同波段数对应的平均相关性 图5不同波段选择方法在PaviaU数据的效果评价 图4不同波段选择方法在Indian数据的效果评价 Fig.5 Evaluation of effects of different wavelength selec- Fig.4 Evaluation of effects of different wavelength selec- tion methods for PaviaU data tion methods for Indian data 1)分类结果分析 2)信息量与相关性结果分析 从图4(a)中可以看到,AP、ABS、MMD和本文 对于信息量与相关性的考量则需要结合图4(b)、 所提算法所得波段的总体分类精度随波段数目的增 (c)、(d)一起分析。从图4中可以看出,ABS算法在 加而稳定上升,但无论所选的波段数目是多少,本 信息量及综合考虑二者的OF上均表现得很优秀,这 文所提算法获取的波段组合总能够得到最高的分类 是由于ABS是基于OIF而进行的改进,采用标准 精度。而MMD虽然选择了光谱维度上“距离较远 差与相关系数的比值作为考量标准,但ABS相较 的波段,但分类效果并不理想,这也说明激进的波 OIF是只计算相邻波段的相关系数,忽视了所选波 段并不能代表其所在的聚类,需要进一步更新聚类 段子集的整体相关性,因此其平均相关性较低。 中心。K-medoids算法所选的波段组合随波段数目 K-medoids算法受随机初始化的影响,所选的波段
1) 分类结果分析 从图 4(a) 中可以看到,AP、ABS、MMD 和本文 所提算法所得波段的总体分类精度随波段数目的增 加而稳定上升,但无论所选的波段数目是多少,本 文所提算法获取的波段组合总能够得到最高的分类 精度。而 MMD 虽然选择了光谱维度上“距离”较远 的波段,但分类效果并不理想,这也说明“激进”的波 段并不能代表其所在的聚类,需要进一步更新聚类 中心。K-medoids 算法所选的波段组合随波段数目 的增加具有波动性,再一次证明初始聚类中心对于 保证波段选择效果的重要性。 2) 信息量与相关性结果分析 对于信息量与相关性的考量则需要结合图 4(b)、 (c)、(d) 一起分析。从图 4 中可以看出,ABS 算法在 信息量及综合考虑二者的 OIF 上均表现得很优秀,这 是由于 ABS 是基于 OIF 而进行的改进,采用标准 差与相关系数的比值作为考量标准,但 ABS 相较 OIF 是只计算相邻波段的相关系数,忽视了所选波 段子集的整体相关性,因此其平均相关性较低。 K-medoids 算法受随机初始化的影响,所选的波段 5 6 7 8 9 10 11 12 13 14 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 AP K-medoids ABS MMD MMDK ܲㆧᏒ ᝬ䔵∎⃡Ⱊ (a) ̹स∎⃡ᄥᏀ⮰ܲㆧᏒ ᰬҟᠳ ᝬ䔵∎⃡Ⱊ 5 6 7 8 9 10 11 12 13 14 15 0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.0 4.5 ×105 AP K-medoids ABS MMD MMDK (b) ̹स∎⃡ᄥᏀ⮰ᰬҟᠳ ԍᖛ䛻䉍⡚⢳ ᝬ䔵∎⃡Ⱊ 5 6 7 8 9 10 11 12 13 14 15 0 0.05 0.10 0.15 0.20 0.25 AP K-medoids ABS MMD MMDK (c) ̹स∎⃡ᄥᏀ⮰ԍᖛ䛻䉍⡚⢳ Ⱔڟᕓ ᝬ䔵∎⃡Ⱊ 5 6 7 8 9 10 11 12 13 14 15 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 AP K-medoids ABS MMD MMDK (d) ̹स∎⃡ᄥᏀ⮰Ⱔڟᕓ 图 4 不同波段选择方法在 Indian 数据的效果评价 Fig. 4 Evaluation of effects of different wavelength selection methods for Indian data ܲㆧᏒ ᝬ䔵∎⃡Ⱊ 3 4 5 6 7 8 9 10 11 12 13 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 AP K-medoids ABS MMD MMDK (a) ̹स∎⃡ᄥᏀ⮰ܲㆧᏒ ᰬҟᠳ ᝬ䔵∎⃡Ⱊ 3 4 5 6 7 8 9 10 11 12 13 0 0.5 1.0 1.5 2.0 ×106 AP K-medoids ABS MMD MMDK (b) ̹स∎⃡ᄥᏀ⮰ᰬҟᠳ ԍᖛ䛻䉍⡚⢳ ᝬ䔵∎⃡Ⱊ 3 4 5 6 7 8 9 10 11 12 13 0.02 0.04 0.06 0.08 0.10 0.12 0.14 0.16 AP K-medoids ABS MMD MMDK (c) ̹स∎⃡ᄥᏀ⮰ԍᖛ䛻䉍⡚⢳ Ⱔڟᕓ ᝬ䔵∎⃡Ⱊ 3 4 5 6 7 8 9 10 11 12 13 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 AP K-medoids ABS MMD MMDK (d) ̹स∎⃡ᄥᏀ⮰Ⱔڟᕓ 图 5 不同波段选择方法在 PaviaU 数据的效果评价 Fig. 5 Evaluation of effects of different wavelength selection methods for PaviaU data 第 1 期 王立国,等:基于最大最小距离的高光谱遥感图像波段选择 ·135·