第6卷第5期 智能系统学报 Vol.6 No.5 2011年10月 CAAI Transactions on Intelligent Systems 0ct.2011 doi:10.3969/j.issn.16734785.2011.05.003 高斯过程及其在高光谱图像分类中的应用 姚伏天12,钱法涛2 (1.浙江大学计算机学院,浙江杭州310027:2.浙江大学人工智能研究所,浙江杭州310027) 摘要:高光谱遥感图像分类是高光谱成像信息处理的研究热点,高光谱成像的内在特点对于分类器设计具有直接 影响.高斯过程是近年来发展迅速的一种新的机器学习方法,具备容易实现、超参数可自适应获取以及预测输出具 有概率意义等优点,比较适合于处理图像分类问题.首先对高斯过程的基本概念及其主要的分类算法进行了简要介 绍,然后在对高光谱图像分类的特点和高光谱图像分类的研究现状的分析基础上,讨论了基于高斯过程的高光谱图 像分类的基本思想,提出了基于空间约束的高斯过程分类和基于半监督高斯过程分类等适合高光谱图像分类的新 方法.最后对基于高斯过程的高光谱图像分类研究的发展趋势进行了展望, 关键词:高斯过程:高光谱图像:机器学习:图像分类 中图分类号:TP181文献标志码:A文章编号:16734785(2011)05039609 Gaussian process and its applications in hyperspectral image classification YAO Futian'2,QIAN Yuntao'2 (1.College of Computer Science,Zhejiang University,Hangzhou 310027,China;2.Institute of Artificial Intelligence,Zhejiang Uni- versity,Hangzhou 310027,China) Abstract:Hyperspectral image classification is one of the hotspots in the field of remote sensing applications.The classification performance is affected by the inherit characteristics of hyperspectral imaging.Gaussian process(GP) is a recently developed machine learning method which enables explicitly probabilistic modeling and makes results easily interpretable.Furthermore,hyper-parameters of GP can be learned from training data,which overcomes the difficulties of fixing model parameters in most classifiers.This paper introduced the basic concept of GP and some GP-based classification methods.After analyzing the characteristics of hyperspectral imaging and the existing classi- fication methods for hyperspectral images,GP based classification for hyperspectral images was discussed,and some new GP-based classification methods such as GP with spatial constraints and semisupervised GP methods were proposed.Finally,several future research trends of GP and hyperspectral image classification were given. Keywords:Gaussian process;hyperspectral imaging;machine learning;image classification 高斯过程(Gaussian process,GP)是近几年发展 率解释。 起来的一种机器学习技术,是目前国际上机器学习 GP预测的思想可以追溯到20世纪40年代[山 研究的热点领域,常被成功应用于处理回归与分类 众所周知,GP预测在地理统计学中被称为Kig 问题.与人工神经网络(artificial neural network, ing23].Thompson和Daley]将其引入气象学中, ANN)和支持向量机(support vector machine,SVM) Whittle将该方法用于空间预测,Ripley和Cress- 相比,GP的突出优点是在不牺牲性能的条件下容易 ie8]将GP预测用于空间统计.随后人们逐渐意识到 实现,其超参数可在模型构建过程中自适应获得,具 GP预测可用于通用回归问题,文献[9-11]中将GP 有严格的统计基础,并且其预测输出具有清晰的概 用于计算机实验数据分析,文献[12-13]基于机器学 习理论重新描述了GP回归和分类. 收稿日期:2010-1019. 基金项目:国家自然科学基金资助项目(60872071), 基于G的分类器设计近年来受到越来越多的 通信作者:钱沄涛.E-mail:ytqian@ju.cd.cn 关注416.分类问题定义为给定输入向量x,通过预
第5期 姚伏天,等:高斯过程及其在高光谱图像分类中的应用 ·397· 测概率值P(clx)来给输入向量x指定类别c.传统 也就是p(yl)=N(ylf,o). 分类方法中,分类面由一组加权基函数组合而成,通 GP是把多元高斯分布推广到无限多个随机变 过训练数据求得每个基函数的系数,从而确定分类 量的形式.假设数据服从GP先验,则数据集合中的 面;但是,对于高维数据,因基函数和待求系数过多, 任意有限长的子集都服从联合多元高斯分布,其核 易引起过拟合问题.由于G不是将约束加在一系 函数为K,则 列的基函数上,而是直接对函数空间加上Bayes先 p(f)=N(0,K) 验,即通用的平滑性约束;因此该模型中没有大量的 目标是求得p(y)的边缘分布,可用如下积分: 参数,取而代之的是GP先验中协方差函数(核函 p(y)=p(yI A)p(f)df=N(yl 0,c). 数)的超参数,这就将模型转化为非参数Bayes模 型,从而解决了过拟合问题 式中协方差矩阵C中的元素如下: 高光谱遥感成像(hyperspectral remote sens- C(x,xm)=k(x.,xm)+o6m (1) ing)[1是光谱分辨率在10~20nm的光谱遥感,可 要预测y·,需要求出分布p(y·Iyw).这里yw表示 获得几百个地物波段的光谱信息,具有波段数众多、 N个数据向量(y1,y2,…,yw),同理yw+1表示(y1, 非线性、空间相关性和谱间相关性共存、难以获得样 y2,…,yw,y·)T.根据GP假设,联合分布为 本标记等特点.遥感图像分类是遥感地理信息系统 p(yN1)=N(yN10,CN). 中的关键技术之一,快速、高精度的遥感图像自动分 式中: 类算法是实现环境的动态监测、评价、预报的关键. 如何把新的模式分析和图像处理理论运用于高光谱 c[ (2) 影像分类是当前的研究热点之一 式中:Cw是N×N的协方差矩阵,其元素由式(1)而 本文首先介绍GP的基本理论及其发展;然后 得;向量K有N个元素k(x.,xw+1)组成,其中n=1, 分析了高光谱图像的特点及其当前常用的分类方 2,…,N;C的元素c=k(xw+1,xw+i)+o 法;在此基础上结合笔者的研究成果,重点讨论用于 根据高斯分布性质,P(y·Iyw)也是高斯分布, 高光谱图像分类的GP算法及其各种改进;最后给 其均值和方差分别为: 出了今后可能的一些关键研究问题, m(N)K'CNyN, 1 GP基本理论 o2(xw1)=c-KCNK. 根据Bayes决策论,损失函数最小化值为预测分布 GP是在Bayes框架中对函数f(x)进行推理,故 的中值,这里预测分布p(y·yw)为高斯分布,故可 对函数(x)在函数空间概率分布的可能形式给出 先验.在GP模型中,假设这样的先验分布符合GP: 用其均值来作为y·的预测值, f~p(fI X)=fcp(m(x),k(x,x')). L.2高斯过程分类(Gaussian process classification, 式中:fp由均值函数m(x)和协方差函数k(x,x')完 GPC) 全确定,即m(x)=E[f(x)],k(x,x)= 对于分类问题,由于分类结果是概率值,故可通 cov[f代x),f(x)].而且,对于由任何x所对应的函 1 过gic函数a()=1+erp(-力或者Probit函 数值的集合中的任意子集,也假设服从多元高斯分 数()=N(xI0,1)dx构成似然函数p(ylf), 布,其均值和方差可以直接由均值函数m(x)和协 将GPR的结果转换成概率值,这样目标变量y服从 方差函数k(x,x)分别计算出来. 贝努利分布: GP的先验意味着在观察训练样本以前,就相信 p(yID=σ()'(1-σ())1, 函数f(x)的可能形式是从先验p(f)中随机采样而 将f代x)f(x2),…,f(xw),f(x)记作向量fw+1…对 实现的,根据训练数据D,函数∫的先验可以更新成 于fN+1,GP的形式为 后验分布p(f1D) l.1高斯过程回归(Gaussian process regression, p(fv-1)=N(fv 0.CN). 式中:CN+1定义和式(2)中一致 GPR) 回归问题的定义为:给定训练数据D={(x, 对于分类问题,其实就是求p(y=1y)的分 布,该分布形式为 y),i=1,2,…,n,对于新输人x°,预测其输出y° p(y*=1Iy)= 考虑观察目标值上增加了零均值方差为σ:的 高斯噪声,形式为y=f(x)+E,其中8~N(0,σ), p(y°=1If)p(fIy)df°. (3)
·398 智能系统学报 第6卷 由于式(3)中被积分函数中2个分布函数不是 analysis,Local FDA)[261或者其他判别函数.Grochow 高斯分布的乘积形式,求不出解析解,因此通常可以 在文献[27]中通过尺度化高斯过程隐变量模型 用Laplace法14、变分法I51、MCMC16、EP18]和其 (scaled GPLVM),从低维空间上给人体姿态进行约 他近似算法90求解。 束,对于人体的姿态进行插值,从而对人的动作进行 1.3GP的核函数 预测。 在机器学习领域中,协方差函数通常称为核函 另外,可以通过在GP中加载稀疏性约束来获 数21.核函数具有超参数0,表示为k(x,x;0).一 得大数据集上GP的近似解.L.Csat6在文献[28]中 般地,假设均值函数m(x)=0,则选择核函数类型 提出利用约束G来求得真实后验稀疏近似解.该 并确定超参数就可以将GP确定下来, 方法通过增加参数的数量使得GP可以突破计算限 GP是基于核函数的方法.核函数是GP预测和 制用于任意大的数据集,该近似解法基于最小化原 分类的关键因素,集成了待学习函数的假设.函数要 始GP和带约束GP之间的KL距离,带约束CP的 成为有效核函数的充分必要条件是,矩阵元素为 约束指的是,整个圳练样本中只有很少量的子集用 k(xm,xn)构成的Gram矩阵K必须是半正定矩阵2 来表示GP,该约束导致稀疏性 GP核函数可以是多种函数形式,如高斯核函数、神经 1.6基于半监督学习的GP 网络核函数、多项式核函数等,也可以通过2个核函 GP可与半监督学习相结合,这时半监督可以看 数的相加、相乘、卷积等运算来构造新的核函数 成是加在GP上的一种特殊的平滑性约束, 1.4GP超参数的训练 半监督学习可以利用少数带标记样本加上大量 超参数求解方法的思想来自于求出使得似然函 无标记样本,从而提高分类和预测精度.半监督学习 数p(yl8)取最大值的GP超参数a.最简单的方法 方法最初基于几何直觉,对于许多现实问题,无标记 是通过求最大对数似然函数来求出0的点估计,该 样本经常可以识别出整个数据的结构,如数据聚类 求解过程可以通过类似于共轭梯度法或其他基于梯 或低维流型,这些知识可以帮助进行推理.例如,人 度的优化算法来完成231.GP的对数似然函数形 们常期望在一个聚类中的数据点间或者在一个流形 式为 中相近的数据点间的类别有很强的相关性,这就是 hpg10)=-2h1Cn1-Cy-%n(2m). 半监督学习中的聚类假设和流形假设, 最近,有一些学者提出多个基于图集成无标记 将对数似然函数对于超参数0求梯度,得到 训练样本的半监督GP算法.文献[29]中提出基于 &hp010)=-2(cS)+ 1. 图先验知识的直推式高斯过程(transductive GP),其 a0. 核心概率模型只是定义在带标记样本和无标记样本 c (4) 的有限训练集合上,但需要额外的过程将模型扩展 到未知的测试样本中。 这样可以根据训练样本集D求得式(4)中的最大值 文献[30]中提出的半监督高斯过程方法中,将 而得到最优的超参数0. 无标记数据的空间属性和基于图的半监督核函数结 1.5带约束的GP 合起来,建立了在整个空间上的GP模型,提供了天 目前,有一些学者对于带约束的GP进行了一 然的样本之外数据的预测能力.正则化算子加在图 些研究.通常,约束通过判别高斯过程隐变量模型 顶点上的平滑性被转换成为定义在整体数据空间上 discriminative Gaussian processes latent variable 的再生核希尔伯特空间(reproducing kernel Hilbert model,D-GPLVM)加在低维数据流形上. spaces,RKHS).通过该RKHS核函数,标准的监督 R.Urtasun24]指出只要数据存在低维流形,D- 核方法可以用来进行半监督推理 GPLVM可以在训练样本很少而数据维数很高的情 Zhu在文献[29]中指出高斯随机场(Gaussian 况下分类,并得到较好的分类精度.D-GPLVM方法 andom field,GRF)和半监督学习中的谐能量最小 通过在高斯过程隐变量模型(GPLVM)的数据隐空 化函数框架可以看成是协方差矩阵源自图Laplace 间中加上判别式先验,就可以通过判别的方式来学 的GP,从半监督学习的角度指出了GRF与GP在概 习GP分类器的协方差矩阵,从而达到提高分类精 率框架中的联系, 度的目的.该判别式先验标准可以是广义判别分析 综上,GP作为一种核方法,可用于分类和回归, generalized discriminative analysis,GDA)25, 其超参数可由训练得到,G模型加上约束后可以有 以是局部费舍尔判别分析(local Fisher discriminative 较多变形算法,这为GP在实际问题中的应用提供
第5期 姚伏天,等:高斯过程及其在高光谱图像分类中的应用 .399. 了较强的理论基础 的急剧增加,在训练样本数量一定的条件下,导致分类 精度在特征空间的维数增加到一定数量后,反而会随 2高光谱图像 着维数的增加而下降.为了保持分类精度,通常有2种 2.1高光谱遥感图像的特点 措施,一是在分类前对原始光谱空间进行降维预处理, 2.1.1高维非线性 得到一个保持了原始空间全局和局部特征结构的低维 高光谱遥感图像由卫星或飞机上携带传感器记 子空间,然后在低维子空间中进行分类判别2];二是尽 录而成.图像数据包含像素的2种误差:辐射误差和 可能增加训练样本的数量,由于带标记的训练样本难 几何误差.数据记录仪器、太阳辐射对波长的依 以获得,因此这点通常难以做到 赖和大气影响都可能产生辐射误差.图像几何误差 2.2高光谱遥感图像分类 产生是多方面的,如平台、扫描仪与地球的相对运动 高光谱遥感图像分类方法以统计模式识别方法 可能导致图像的扭曲,传感器本身非理想特性、地球 占主流,包括传统遥感图像分类方法、基于核函数分 曲率以及遥感平台在位置和姿态方面无法控制的变 类方法和其他分类方法, 化都可能导致不同程度的几何误差 1)传统遥感图像分类主要分为有监督分类和 辐射误差可以通过某些计算方法进行补偿.而 非监督分类.监督分类包括:最大似然分类法、Bayes 几何误差由于其产生因素较复杂,很难完全去除其 分类法、最近邻分类法、KNN分类法、费舍尔判别分 影响,这就使得高光谱图像不同程度上具有非线性 类、多尺度自回归®]等.这些方法在对高光谱图像 的特性,造成图像很难进行线性拟合,也难以用线性 分类时往往无法获得足够的训练样本,容易引起 分类器对高光谱图像进行正确分类 Hughes现象.非监督方法主要是聚类法,按照图像 2.1.2空间相关性和谱间相关性共存 的光谱特征的分布规律,以某种相似性测度自动聚 空间相关性是指每个谱段内某一像素与其相邻像 集成类,其分类结果只是对不同类别进行了区分,主 素之间的相似性.谱间相关性是指每个谱段光谱图像 要包括K均值法、ISODATA法、分级聚类等, 的同一空间位置像素具有相似性.高光谱图像中,相邻 2)核函数方法通过非线性映射,将输人空间的 像素之间在空间上总存在一定联系.首先,传感器在对 样本映射到高维特征空间中,在高维空间中构造分 该像素成像时,同时吸收了周围像素的一部分能量;其 类判决面进行分类.核函数方法包括:SVM、GP、核 次,某一地物类别在地面所占的实际面积与一个像素 主成分分析、核函数费舍尔判别法(kerel Fisher 的实际面积相比也大得多.例如,一个农业区域,已知 discriminant,KFD)、核投影寻踪法等,这些方法都 某一像素代表小麦,那么它周围的像素是小麦的概率 在高光谱图像处理中得到了应用。 比不是小麦的概率要大很多.相邻像素点之间的空间 3)其他分类方法主要包括神经网络分类法「34] 相关性的强弱主要取决于传感器的空间分辨率和地表 决策树分类法等. 自然、人文区域的规模大小回 在高光谱遥感图像分类上,核函数方法占有一 高光谱图像的谱间相似性的产生原因有2点: 定优势,原因在于:一方面,高光谱图像的波段数一 ·是光谱图像的每个波段图像的像素值,是相同区 般较大,线性分类器通常很难将其有效分开,核函数 域地物在各个波段的反射值,它们是具有相关性的, 方法可以将输入空间映射到高维空间,在高维空间 其相关性的强弱在很大程度上取决于光谱分辨率; 更易于找到有效的线性分类器,通常可以取得较好 二是由于不同波段的图像所涉及的地面目标相同, 的分类效果;另一方面,核函数方法为非参数方法, 它们具有相同的空间拓扑结构。 只需要对少数几个超参数进行学习,速度较快,也比 2.1.3训练样本标记难以获得 较简单,而其他参数方法通常要学习很多参数,学习 目前用于高光谱遥感图像的有监督分类算法, 过程较长,也比较复杂 由于波段数量巨大,需要大量正确的训练样本.然 SVM因具备能有效处理较多输人波段,鲁棒地 而,获得样本标记不仅费时费力,而且在许多情况 处理带噪声样本,产生稀疏解等优点,近几年被成功 下,很难对样本进行标记,例如森林大火、山体滑坡、 应用于高光谱遥感图像分类3s36].但SVM本身也存 洪水和地震,获得标记的训练样本是不可能的。 在着一些问题,如:特定问题中核函数的选取、核函 另一方面,根据Hughes的研究结果3u,随着特征 数的参数选择、如何选取合适的惩罚项来防止过拟 空间维数的增加,类别可分性提高,但由于遥感中常用 合、SVM的估计输出不具有概率意义 的监督分类方法首先要顾及样本的分布函数或者分布 另外高光谱图像的空间相关性可以为分类提供 函数中的一些参数,随着空间维数的增加,待估计参数 很多有用的信息,正确的使用上下文空间信息可以
·400 智能系统学报 第6卷 纠正由于噪声影响或者分类器缺陷引起的孤立像素 光谱遥感图像,图像大小为145×145,取其中非耕 错分,从而提高分类精度.关于遥感图像的上下文分 犁玉米地、最小耕犁玉米地、牧草、禾木、干草、非耕 类,很多学者做了有用的探索印3],典型的方法有 犁大豆地、最小耕犁大豆地、完全耕犁大豆地和林地 Kriging9],MRFi)、条件随机场(conditional random 9个不同类别做实验,见图1. field,CRF)方法[等.CRF是Lafftery于2001年新 提出的方法[2,Kumar31于2003年将其有效地运 用于图像的人工建筑物检测,Zhog41将其用于高 光谱遥感图像的目标检测, 3基于GP的高光谱图像分类 GP和SVM一样,也是基于核函数的方法,具有 核函数方法分类的优势.与SVM不同的是,GP具有 图1印第安纳AVIRIS第25波段 完全的Bayes公式化表示,所以能够明确地进行概 Fig.1 Hyperspectral image of AVIRIS in Indiana 92, 率建模,使结果更易于解释.更重要的是,GP的 Band 25 Bayes学习提供了一个范式,根据训练样本,从先验 2)高光谱遥感实验数据二是HYDICE传感器 分布到后验分布的转换,可以对核函数的超参数进 拍摄的华盛顿特区的某区域,该子图有500×307个 行推理,而SVM对超参数的选择却通常只能采用经 像元,210个波段,由屋顶、道路、水、草、树、人造建 验法或者交叉验证方法。 筑和阴影7个类组成,见图2. 高光谱图像具有高维非线性、空间相关性和谱 间相关性共存以及训练样本难以获得的特点;故使 用GPC时,应充分针对上述特点,将GP进行改进, 使其更适用于高光谱图像分类。 GP的核函数可以有多种不同的形式,如线性核 函数、多项式核函数、高斯核函数、指数核函数等.高 光谱图像中多个谱段的像元之间近似服从高斯分 布,故采用高斯形式核函数的GP来对高光谱图像 图2华盛顿特区HYDICE第80波段 进行分类较为合理, Fig.2 Hyperspectral image of HYDICE in Washington D.C.,Band 80 标准GP℃只利用高光谱图像的谱间相关性,并 没有利用空间相关性.CRF利用高光谱图像的空间 在基于GP的高光谱遥感分类中,图像数据表示 相关性,可以根据邻域像元将错分类孤立像元类别 成D={x,y:,x:为某个特定像元,y为像元x:的类 纠正.构造CRF和GP相结合的GPCRF分类器进行 别标签,矢量x表示高光谱像元的波段矢量,若遥感 高光谱图像分类,能够进一步提高图像分类精度. 数据光谱波段为n维,则每个x:都是n维数据. 由于高光谱图像的训练样本难以获得,在少量 3.2基于非线性核函数GP的高光谱图像分类 训练样本下进行监督GP℃,将给参数估计带来较大 高光谱图像具有高维非线性的特性,而GP是 误差,导致分类精度严重下降.考虑在遥感图像上可 一种非线性Bayes核函数方法,通过采用非线性核 以获得大量的无标记的训练样本,在GP中引入半 函数,比如高斯核函数GP可以较好地解决高光谱 监督学习思想,充分利用大量无标记样本所蕴含的 遥感图像的非线性问题.这里用线性核函数和高斯 信息辅助分类,构造半监督高斯过程(semi-super~- 核函数分别做实验进行比较 vised Gaussian process,SSGP)分类器,能够有效克 线性核函数形式为 服高光谱图像训练样本少的问题。 (x,x)= x 3.1实验数据集 高斯核函数形式为 下面将详细介绍几种笔者提出的改进的GP℃ 算法,并给出相应的高光谱图像分类实验结果.首先 (,0=ep(-2(-). 介绍一下实验采用的高光谱遥感数据. 式中:σ:和1均为超参数.用线性核函数高斯过程分 1)高光谱遥感实验数据一是AVIRIS传感器于 类方法和高斯核函数高斯过程分类方法其训练时间 1992年拍摄的220个波段印第安纳州西北区域高