第36卷第12期 北京科技大学学报 Vol.36 No.12 2014年12月 Journal of University of Science and Technology Beijing Dec.2014 模糊时序与支持向量机建模相结合的PM,5质量浓度 预测 刘 杰”,杨鹏四,吕文生”,刘阿古达木”,刘俊秀) 1)北京科技大学土木与环境工程学院,北京1000832)北京联合大学北京市信息服务工程重点实验室,北京100101 ☒通信作者,E-mail:yangpenge@buu.edu.cn 摘要为解决进行PM2,质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题,提出应用 支持向量机和模糊粒化时间序列相结合的方法,对PM2:质量浓度未来变化趋势和范围进行预测.根据PM25不同季节的日变 化周期模式,确定以24为周期的粒化窗宽,利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入,并在k重 交叉验证法下采用网格划分寻找出模型的最佳参数.以2013年3月一2014年2月北京市海淀区万柳监测点四个季节PM25 的Ih质量浓度监测值为样本数据,应用该方法建立PM2s质量浓度的时间序列预测模型,并在MATLAB平台下应用LIBSVM 工具实现计算过程.结果表明,基于模糊粒化时间序列的预测模型,能较好解决PM2机理性建模方式下由于影响因素考虑不 全而造成的预测结果不稳定,对模糊粒子拟合效果较好 关键词细颗粒物:质量浓度:预测模型:支持向量机:时间序列 分类号X823 Prediction model of PM,s mass concentrations based on fuzzy time series and support vector machine LIU Jie",YANG Peng,LO Wen-sheng",LIU Agudamu,LIU Jun-xiu 1)School of Civil and Environmental Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China Corresponding author,E-mail:yangpeng@buu.edu.cn ABSTRACT To solve the instability of multiple-factor regression models and the existence of over-earning and local minima of neural network models in predicting PMs mass concentration,a method was proposed by combining support vector machine with fuzzy granu- lation of time series to predict the variation trend and range of PM,s mass concentration.According to the daily periodic variation of PM2 s in different seasons,a 24h pattern was determined to be the window length of granulating.Feature extraction of data samples proceeded by a triangular membership function was applied to support vector machine inputs for regressive modeling,and the optimum parameters of models were selected by grid search based on k-fold cross validation.Then a time series prediction model was established by using 1h PM,s mass concentration obtained by Wanliu monitoring station at Haidian district of Beijing in 4 seasons from March 2013 to February 2014,and its resolving was realized by LIBSVM tool in MATLAB platform.The results show that the prediction mod- el of PMs mass concentration based on fuzzy granulation of time series can solve the instability caused by uncertain factors in mecha- nism modeling and get a good fitting effect on fuzzy granulation parameters. KEY WORDS particulate matter:mass concentration:prediction models:support vector machine:time series 大气细颗粒物PMz.s(particulate matter,空气动力学当量直径≤2.5μm的颗粒物)是当前影响城市 收稿日期:201403-11 基金项目:北京市属高等学校高层次人才引进与培养一“长城学者”培养计划项目“基于无线传感器网络的城市空气质量实时监测系统研 究”资助项目(CT&TCD20130320) DOI:10.13374/j.issn1001-053x.2014.12.017:http://jourals.ustb.edu.cn
第 36 卷 第 12 期 2014 年 12 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 36 No. 12 Dec. 2014 模糊时序与支持向量机建模相结合的 PM2. 5 质量浓度 预测 刘 杰1) ,杨 鹏2) ,吕文生1) ,刘阿古达木1) ,刘俊秀2) 1) 北京科技大学土木与环境工程学院,北京 100083 2) 北京联合大学北京市信息服务工程重点实验室,北京 100101 通信作者,E-mail: yangpeng@ buu. edu. cn 摘 要 为解决进行 PM2. 5质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题,提出应用 支持向量机和模糊粒化时间序列相结合的方法,对 PM2. 5质量浓度未来变化趋势和范围进行预测. 根据 PM2. 5不同季节的日变 化周期模式,确定以 24 h 为周期的粒化窗宽,利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入,并在 k 重 交叉验证法下采用网格划分寻找出模型的最佳参数. 以 2013 年 3 月—2014 年 2 月北京市海淀区万柳监测点四个季节 PM2. 5 的 1 h 质量浓度监测值为样本数据,应用该方法建立 PM2. 5质量浓度的时间序列预测模型,并在 MATLAB 平台下应用 LIBSVM 工具实现计算过程. 结果表明,基于模糊粒化时间序列的预测模型,能较好解决 PM2. 5机理性建模方式下由于影响因素考虑不 全而造成的预测结果不稳定,对模糊粒子拟合效果较好. 关键词 细颗粒物; 质量浓度; 预测模型; 支持向量机; 时间序列 分类号 X 823 Prediction model of PM2. 5 mass concentrations based on fuzzy time series and support vector machine LIU Jie1) ,YANG Peng2) ,L Wen-sheng1) ,LIU Agudamu1) ,LIU Jun-xiu2) 1) School of Civil and Environmental Engineering,University of Science and Technology Beijing,Beijing 100083,China 2) Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China Corresponding author,E-mail: yangpeng@ buu. edu. cn ABSTRACT To solve the instability of multiple-factor regression models and the existence of over-learning and local minima of neural network models in predicting PM2. 5 mass concentration,a method was proposed by combining support vector machine with fuzzy granulation of time series to predict the variation trend and range of PM2. 5 mass concentration. According to the daily periodic variation of PM2. 5 in different seasons,a 24-h pattern was determined to be the window length of granulating. Feature extraction of data samples proceeded by a triangular membership function was applied to support vector machine inputs for regressive modeling,and the optimum parameters of models were selected by grid search based on k-fold cross validation. Then a time series prediction model was established by using 1-h PM2. 5 mass concentration obtained by Wanliu monitoring station at Haidian district of Beijing in 4 seasons from March 2013 to February 2014,and its resolving was realized by LIBSVM tool in MATLAB platform. The results show that the prediction model of PM2. 5 mass concentration based on fuzzy granulation of time series can solve the instability caused by uncertain factors in mechanism modeling and get a good fitting effect on fuzzy granulation parameters. KEY WORDS particulate matter; mass concentration; prediction models; support vector machine; time series 收稿日期: 2014--03--11 基金项目: 北京市属高等学校高层次人才引进与培养———“长城学者”培养计划项目“基于无线传感器网络的城市空气质量实时监测系统研 究”资助项目( CIT&TCD20130320) DOI: 10. 13374 /j. issn1001--053x. 2014. 12. 017; http: / /journals. ustb. edu. cn 大气细颗粒物 PM2. 5 ( particulate matter,空气动 力学当量直径≤2. 5 μm 的颗粒物) 是当前影响城市
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1695· 环境·-)和人体健康0的最主要污染物之一,北京 本思想是将样本数据集映射到高维空间,通过在高 市环境保护监测中心发布的空气质量指数(air qual- 维空间构造线性分类函数来实现样本集合的划分, ity index,AQI)结果显示,2013年3月一2014年2 并通过引入核函数来避免高维空间中的维数灾难, 月北京城六区PM2s作为首要污染物的比例高达 极大地减少了计算量.鉴于PM2s来源的复杂性使 57.2%,其污染程度极大地影响了城市空气质量的 得基于机理的建模方法存在较大不确定性,本文提 好坏.因此,对PM2s质量浓度的有效预测可以为从 出将支持向量机与时间序列相结合的方法.利用模 整体上观测城市空气质量的变化趋势提供有力信 糊粒化的方法对时间序列和PM2监测数据进行特 息.大气污染物的常见预测方法是假设其质量浓度 征提取,结合支持向量机建模方法,保证了算法的全 与一些具体的影响因素有关,如气象因素、污染物来 局最优性,以得出较为可靠和准确的质量浓度变化 源等囚,并对污染物与影响因素做相关性分析,即 趋势及范围,有效解决多因素回归模型预测结果不 把影响因素作为自变量,污染物浓度作为因变量,进 稳定的问题,为PM25及其他大气污染物浓度预测提 行回归预测输出,但对于PM25质量浓度预测来说, 供一种新方法 这种方法存在诸多的不确定性.首先,当前对于 PM25的来源及影响因素认识,尚未完全统一,目前 1ε一支持向量机非线性回归 主要认为北京PM2s的来源6为地面扬尘、建筑 支持向量机通常用核函数变换来解决非线性回 尘、燃煤、生物质燃烧、机动车排放、工业过程、二次 归问题,通过非线性变换中将n维矢量空间R“的样 转化等诸多人为源,而影响因素0主要有风速、温 本(x:,y:)映射到高维特征空间,然后建立线性模型 度、气压等气象因素及地势等地理因素.实际情况 来拟合回归函数.ε一支持向量机即采用ε不敏感损 显示,PM2s来源及影响因素明显不仅仅如此,仍有 诸多暂未发现或难以确定的影响因素没有列入其 失函数的进行样本训练,具有不敏感带的非线性回 中.其次,即使建立了完整、准确的PM25来源及影 归函数如图1所示,图中所示的变量度量了训练 响因素体系,现阶段也很难满足其影响因素完整资 样本点上误差的代价,在ε不敏感带内的点误差为 料的对应,难以准确分析其相关性.对此,可结合 0.其优化问题可表示为 PM2.s质量浓度变化的周期性,建立基于时间序列的 mi2Iw2+C∑(怎+), (1) 预测模型,研究其未来某一时段的质量浓度变化趋 势及范围 出:-w中(x,)-b≤e+, 当前对预测模型的研究,主要集中在用机器学 s.t.{w中(x:)+b-y:≤E+, 习算法解决复杂的非线性模型问题上,尤其是应用 5:≥0,≥0,C>0,i=1,2,…,n. 人工神经网络模型对大气颗粒物的小时质量浓度进 式中,ω为权值向量,C为惩罚参数,b为阈值,专为 行预测研究.如McKendryn运用神经网络模型预 松弛变量.若对应于变换中的核函数为K(x,x), 测了加拿大菲莎河谷下游区域PM。和PM2s的小时 则式(1)所示的问题可构造出对偶最优化问 平均质量浓度:Kukkonen等☒运用多种神经网络 题,即 模型预测了芬兰赫尔辛基城区PM。的小时平均质 量浓度;石灵芝等)利用BP神经网络模型预测了 腰{-三a-a)a-g)k)- +a =1 湖南长沙火车站PM。小时平均质量浓度;这些研究 (2) 均取得了较好的效果.神经网络非线性拟合能力较 a+ai)+-a)} 强,学习规则简单,可映射任意复杂的非线性关系, 但其在解决网络结构的确定、过拟合和局部极小等 s.t. 问题上仍存在较大困难.支持向量机(support vector a,ai∈[D,C],i=1,2,…,n. machine,SVM)则在小样本、非线性、高维模式识别 式中,a:和a分别为对应的拉格朗日乘子,a:为支 等问题的解决上表现出许多特有优势,并可避免神 持向量.核函数K(x:,x)的回归估计函数为 经网络中经常出现的过拟合及局部极小等问题,推 f(x)=w中(x)+b= (a-a)K(x:x)+b. 广误差较小,具有较好的泛化能力.该方法基于统 计学习中结构风险最小化原则,由Cortes和Va即p- (3) mik在1995年首先提出并迅速发展和完善,其基 式中,阈值b的计算式为
第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 环境[1--3]和人体健康[4]的最主要污染物之一. 北京 市环境保护监测中心发布的空气质量指数( air quality index,AQI) 结果显示,2013 年 3 月—2014 年 2 月北京城六区 PM2. 5 作为首要污染物的比例高达 57. 2% ,其污染程度极大地影响了城市空气质量的 好坏. 因此,对 PM2. 5质量浓度的有效预测可以为从 整体上观测城市空气质量的变化趋势提供有力信 息. 大气污染物的常见预测方法是假设其质量浓度 与一些具体的影响因素有关,如气象因素、污染物来 源等[5],并对污染物与影响因素做相关性分析,即 把影响因素作为自变量,污染物浓度作为因变量,进 行回归预测输出,但对于 PM2. 5质量浓度预测来说, 这种方法存在诸多的不确定性. 首先,当前对于 PM2. 5的来源及影响因素认识,尚未完全统一,目前 主要认为北京 PM2. 5 的来源[6--8]为地面扬尘、建筑 尘、燃煤、生物质燃烧、机动车排放、工业过程、二次 转化等诸多人为源,而影响因素[9--10]主要有风速、温 度、气压等气象因素及地势等地理因素. 实际情况 显示,PM2. 5来源及影响因素明显不仅仅如此,仍有 诸多暂未发现或难以确定的影响因素没有列入其 中. 其次,即使建立了完整、准确的 PM2. 5来源及影 响因素体系,现阶段也很难满足其影响因素完整资 料的对应,难以准确分析其相关性. 对此,可结合 PM2. 5质量浓度变化的周期性,建立基于时间序列的 预测模型,研究其未来某一时段的质量浓度变化趋 势及范围. 当前对预测模型的研究,主要集中在用机器学 习算法解决复杂的非线性模型问题上,尤其是应用 人工神经网络模型对大气颗粒物的小时质量浓度进 行预测研究. 如 McKendry[11]运用神经网络模型预 测了加拿大菲莎河谷下游区域 PM10和 PM2. 5的小时 平均质量浓度; Kukkonen 等[12]运用多种神经网络 模型预测了芬兰赫尔辛基城区 PM10 的小时平均质 量浓度; 石灵芝等[13]利用 BP 神经网络模型预测了 湖南长沙火车站 PM10小时平均质量浓度; 这些研究 均取得了较好的效果. 神经网络非线性拟合能力较 强,学习规则简单,可映射任意复杂的非线性关系, 但其在解决网络结构的确定、过拟合和局部极小等 问题上仍存在较大困难. 支持向量机( support vector machine,SVM) 则在小样本、非线性、高维模式识别 等问题的解决上表现出许多特有优势,并可避免神 经网络中经常出现的过拟合及局部极小等问题,推 广误差较小,具有较好的泛化能力. 该方法基于统 计学习中结构风险最小化原则,由 Cortes 和 Vapnik[14]在 1995 年首先提出并迅速发展和完善,其基 本思想是将样本数据集映射到高维空间,通过在高 维空间构造线性分类函数来实现样本集合的划分, 并通过引入核函数来避免高维空间中的维数灾难, 极大地减少了计算量. 鉴于 PM2. 5来源的复杂性使 得基于机理的建模方法存在较大不确定性,本文提 出将支持向量机与时间序列相结合的方法. 利用模 糊粒化的方法对时间序列和 PM2. 5监测数据进行特 征提取,结合支持向量机建模方法,保证了算法的全 局最优性,以得出较为可靠和准确的质量浓度变化 趋势及范围,有效解决多因素回归模型预测结果不 稳定的问题,为 PM2. 5及其他大气污染物浓度预测提 供一种新方法. 1 ε--支持向量机非线性回归 支持向量机通常用核函数变换来解决非线性回 归问题,通过非线性变换 将 n 维矢量空间 Rn 的样 本( xi,yi ) 映射到高维特征空间,然后建立线性模型 来拟合回归函数. ε--支持向量机即采用 ε 不敏感损 失函数[15]进行样本训练,具有不敏感带的非线性回 归函数如图 1 所示,图中所示的变量 ξ 度量了训练 样本点上误差的代价,在 ε 不敏感带内的点误差为 0. 其优化问题可表示为 min ω,b,ξ 1 2 ‖ω‖2 + C ∑ l i = 1 ( ξi + ξ * i ) , ( 1) s. t. yi - ω·( xi ) - b≤ε + ξi, ω·( xi ) + b - yi≤ε + ξ * i , ξi≥0,ξ * i ≥0,C > 0,i = 1,2,…, { n. 式中,ω 为权值向量,C 为惩罚参数,b 为阈值,ξ 为 松弛变量. 若对应于变换 的核函数为 K( xi,xj) , 则式( 1 ) 所示的问题可构造出对偶最优化问 题[16],即 max α,α* { - 1 2 ∑ n i,j = 1 ( αi - α* i ) ( αj - α* i ) K( xi,xj ) - ε ∑ n i = 1 ( αi + α* i ) + ∑ n i = 1 yi ( α* i - αi ) } , ( 2) s. t. ∑ n i = 1 αi = ∑ n i = 1 α* i , αi,α* i ∈[0,C],i = 1,2,…, { n. 式中,αi 和 αj 分别为对应的拉格朗日乘子,α* i 为支 持向量. 核函数 K( xi,xj ) 的回归估计函数为 f( x) = ω·( x) + b = ∑ n i = 1 ( αi - α* i ) K( xi,xj ) + b. ( 3) 式中,阈值 b 的计算式为 · 5961 ·
·1696 北京科技大学学报 第36卷 a-)KG) 式中,a和d分别为模糊粒子的支撑上、下界;m为 窗口的核,通常取中位数作为粒子代表.隶属函数 多e6-a-a)k医)+} (4) 在不同的情况下有不同的确定方式及其合理性,但 所建立的隶属函数应满足建立模糊粒子的基本思 其中,Nsv为准支持向量机的个数,S,为准支持向量. 想:模糊粒子能够合理地代表原始数据:模糊粒 子要具有一定的独特性.为满足上述两个思想,P- dryce提出的模糊粒化模型o给出了一个可找出两 者最佳平衡的函数Q,即 M(A) QN(A (6) 式中,M(A)和N(A)分别表示可满足建立模糊粒子 的两种基本思想.为满足建立模糊粒子的基本思 想,只需Q越大越好 图1非线性回归函数的不敏感带 Fig.1 Insensitive band of a nonlinear regression function 2时间序列的模糊粒化 2.1模糊粒化三角模型的建立 模糊粒化问题是由Zadeh在模糊集合论概念的 基础上,于1979年首次提出m,其实质是基于模糊 逻辑和信息粒化的数学方法.时间序列的模糊粒化 就是将时间序列划分为模糊集的形式,主要包括离 图2三角模糊粒子隶属函数 散化和模糊化两个步骤,二者的结合称为粒化,其 Fig.2 Triangular membership function of fuzzy granulation 关键是使建立的模糊集能够充分代表原始样本集. 2.2时间序列的周期性分析 离散化就是通过“窗口”来将时间序列分割为若干 周期性是指某一现象出现后,经过一个固定的 小子列,设X={x1,x2,…,xn}为时间序列,窗宽为 时间长度,再反复重现该现象.实际上,严格的周期 k,则0:={x,x…,xa-k+}为分割所得的时间子序 是实验性的,现实中的周期性多为近似(伪)周期. 列,可令W(X,k)={w:Ii=1,2,…,n-k+1}为表 如式(5)所示的三角函数具有严格的周期,掌握其 示X所有窗宽为k的窗口的集合,且任一两个窗口 周期就可以进行预测和分析.周期理论并没有完整 均无重叠.模糊化是在给定的时间序列X上建立一 的具体方法,其研究方法主要靠定性、分析和数值计 个模糊粒子P,即确定一个以X为论域且能合理描 算等方式来完成.时间序列模型通常按各种可 述该集合的模糊集T,通过确定T来确定模糊粒子 能发生影响的因素进行分类,包括长期趋势、季节变 P.因此,模糊化的过程就是确定模糊集T的隶属函 动、循环变动及不规则运动四.长期趋势指时间序 数A,通过确定模糊粒子的基本形式,即可确定出具 列在长时间内朝着某一方向持续上升、下降或停留: 体的隶属函数A.模糊粒子的基本形式主要有三角 季节变动指时间序列随自然季节气候的变化而引发 形、梯形、高斯型和抛物型,三角型模糊粒子在表达 的周期性变动:循环变动指长时间、波浪式起伏的周 介于某数的左、右时具有独特的优势,且实际的研究 期变动:不规则运动则是指由偶然因素引起的无周 应用)也表明其对隶属函数的确定更具合理性,可 期变动. 反映取值的可能性分布,故此处采用其进行研究,其 PM25主要来源于人为活动,其质量浓度变化必 基本形式如图2所示,隶属函数如式(5)所示. 然也存在着一定的周期性.大量的研究表明,PM25 0, x≤a 质量浓度存在着明显的季节变动规律圆和循环变 x-a x∈[a,x]; m-a 动规律P4-,主要体现在PM2s的质量浓度的日变 A(x,a,m,b)= (5) d-x 化存在规律性的波峰波谷变化,且在不同季节的日 d-m xe [m,d]; 变化模式存在显著差异.根据北京市2013一2014 0, x≥d. 年实际的气象特征,并通过天文与气候相结合的通
北 京 科 技 大 学 学 报 第 36 卷 b = 1 N { NSV 0 ∑< αi [ < C yi - x ∑ j ∈SV ( αj - α* j ) K( xi,xj ) - ε ] + 0 < ∑α* i < C [yi - ( αj - α* j ) K( xi,xj ) + ε]} . ( 4) 其中,NNSV为准支持向量机的个数,SV为准支持向量. 图 1 非线性回归函数的不敏感带 Fig. 1 Insensitive band of a nonlinear regression function 2 时间序列的模糊粒化 2. 1 模糊粒化三角模型的建立 模糊粒化问题是由 Zadeh 在模糊集合论概念的 基础上,于 1979 年首次提出[17],其实质是基于模糊 逻辑和信息粒化的数学方法. 时间序列的模糊粒化 就是将时间序列划分为模糊集的形式,主要包括离 散化和模糊化两个步骤,二者的结合称为 f-粒化,其 关键是使建立的模糊集能够充分代表原始样本集. 离散化就是通过“窗口”来将时间序列分割为若干 小子列,设 X = { x1,x2,…,xn } 为时间序列,窗宽为 k,则 wi = { xi,xi,…,xn - k + 1 } 为分割所得的时间子序 列,可令 W( X,k) = { wi | i = 1,2,…,n - k + 1} 为表 示 X 所有窗宽为 k 的窗口的集合,且任一两个窗口 均无重叠. 模糊化是在给定的时间序列 X 上建立一 个模糊粒子 P,即确定一个以 X 为论域且能合理描 述该集合的模糊集 T,通过确定 T 来确定模糊粒子 P. 因此,模糊化的过程就是确定模糊集 T 的隶属函 数 A,通过确定模糊粒子的基本形式,即可确定出具 体的隶属函数 A. 模糊粒子的基本形式主要有三角 形、梯形、高斯型和抛物型,三角型模糊粒子在表达 介于某数的左、右时具有独特的优势,且实际的研究 应用[18]也表明其对隶属函数的确定更具合理性,可 反映取值的可能性分布,故此处采用其进行研究,其 基本形式如图 2 所示,隶属函数如式( 5) 所示. A( x,a,m,b) = 0, x≤a; x - a m - a , x∈[a,x]; d - x d - m, x∈[m,d]; 0, x≥ d. ( 5) 式中,a 和 d 分别为模糊粒子的支撑上、下界; m 为 窗口的核,通常取中位数作为粒子代表. 隶属函数 在不同的情况下有不同的确定方式及其合理性,但 所建立的隶属函数应满足建立模糊粒子的基本思 想[19]: 模糊粒子能够合理地代表原始数据; 模糊粒 子要具有一定的独特性. 为满足上述两个思想,Pedryce 提出的模糊粒化模型[20]给出了一个可找出两 者最佳平衡的函数 QA,即 QA = M( A) N( A) . ( 6) 式中,M( A) 和 N( A) 分别表示可满足建立模糊粒子 的两种基本思想. 为满足建立模糊粒子的基本思 想,只需 QA越大越好. 图 2 三角模糊粒子隶属函数 Fig. 2 Triangular membership function of fuzzy granulation 2. 2 时间序列的周期性分析 周期性是指某一现象出现后,经过一个固定的 时间长度,再反复重现该现象. 实际上,严格的周期 是实验性的,现实中的周期性多为近似( 伪) 周期. 如式( 5) 所示的三角函数具有严格的周期,掌握其 周期就可以进行预测和分析. 周期理论并没有完整 的具体方法,其研究方法主要靠定性、分析和数值计 算等方式来完成[21]. 时间序列模型通常按各种可 能发生影响的因素进行分类,包括长期趋势、季节变 动、循环变动及不规则运动[22]. 长期趋势指时间序 列在长时间内朝着某一方向持续上升、下降或停留; 季节变动指时间序列随自然季节气候的变化而引发 的周期性变动; 循环变动指长时间、波浪式起伏的周 期变动; 不规则运动则是指由偶然因素引起的无周 期变动. PM2. 5主要来源于人为活动,其质量浓度变化必 然也存在着一定的周期性. 大量的研究表明,PM2. 5 质量浓度存在着明显的季节变动规律[23]和循环变 动规律[24--25],主要体现在 PM2. 5 的质量浓度的日变 化存在规律性的波峰波谷变化,且在不同季节的日 变化模式存在显著差异. 根据北京市 2013—2014 年实际的气象特征,并通过天文与气候相结合的通 · 6961 ·
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1697· 用季节划分方式,将2013年3一5月、6一8月、9一 变动、循环变动和部分不规则运动共同决定的.事 11月和12一次年2月四个时间段依次划分为春季、 实上,对于PM2s质量浓度复杂的周期性变动,根据 夏季、秋季和冬季进行研究,并对城六区12个监测 实际的时间长度和样本数,可对时间序列和窗宽进 点四个季节的PM2s质量浓度逐时变化进行统计分 行不同的划分,越长的变化趋势预测通常需要越长 析,原始监测数据由北京市环境监测保护中心所建 时间序列的样本数据.此处结合实际的时间序列长 立的城市空气自动监测站点获取,统计结果如图3 度和样本数据,以2013年2月一2014年3月共12 所示.为全面了解各季节PM25质量浓度分布的离 个月的监测样本为数据基础,四个季节为时间序列, 散程度和变化规律,图3给出了PM25质量浓度变化 质量浓度日变化(1d)为时间子序列,24h变化为窗 范围的最小值和最大值(圆形点)、5%~95%质量 宽,以此建立基于模糊粒化的PM2s质量浓度时序预 浓度值(直线上下须间距)、25%~75%质量浓度值 测模型 (矩形上下间距)、平均值(矩形内方点)和中值(矩 3PM2,s质量浓度时序预测模型的建立 形内横线).由图中平均值可看出,四个季节PM25 质量浓度日变化整体呈现夜间(20:00一23:00)较 3.1监测数据获取及模糊粒化 高、清晨(4:00一7:00)较低的变化规律,这仅是一 以城六区海淀万柳监测点为例,选取该监测点 个近似(伪)周期现象;而四个季节PM25质量浓度 201303-11一2013-05-30(春季)、2013-06-01一 逐时变化幅度也存在显著差异,从5%~95%和 2013-08-30(夏季)、201309-01一2013-11-29(秋 25%~75%质量浓度分位值来看,秋季PM2s质量浓 季)和2013-12-01一201402-27(冬季)的1h质量 度1h均值具有最小的变化幅度,其他三个季节变 浓度均值作为研究对象,即分别应用四个季节的1h 化幅度较大,且PM2s质量浓度在各季节不同时间段 质量浓度均值,预测最后1d(2013-05-31、2013- 也表现出了不同的变化幅度;这些变化都是由季节 08-31、2013-11-30和201402-28)24h的质量浓 160 160 a 140 140 120 120 I00 60 0 40 20 时刻 时刻 180 220 (c) (d) 160 200 . 140 180 160 120 140 120 100 80 20 时刻 时刻 图32013年3月一2014年2月北京城六区PM2.s质量浓度逐时变化.()春季变化(3一5月):(b)夏季变化(6一8月):(c)秋季变化(9- 11月):(d)冬季变化(12一次年2月) Fig.3 Variation of PM2s I average concentration in the six urban areas of Beijing from March 2013 to February 2014:(a)variation in spring (March to May):(b)variation in summer (June to August);(c)variation in autumn (September to November);(d)variation in winter (Decem- ber to February of the next year)
第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 用季节划分方式,将 2013 年 3—5 月、6—8 月、9— 11 月和 12—次年 2 月四个时间段依次划分为春季、 夏季、秋季和冬季进行研究,并对城六区 12 个监测 点四个季节的 PM2. 5质量浓度逐时变化进行统计分 析,原始监测数据由北京市环境监测保护中心所建 立的城市空气自动监测站点获取,统计结果如图 3 所示. 为全面了解各季节 PM2. 5质量浓度分布的离 图 3 2013 年 3 月—2014 年 2 月北京城六区 PM2. 5质量浓度逐时变化. ( a) 春季变化( 3—5 月) ; ( b) 夏季变化( 6—8 月) ; ( c) 秋季变化( 9— 11 月) ; ( d) 冬季变化( 12—次年 2 月) Fig. 3 Variation of PM2. 5 1-h average concentration in the six urban areas of Beijing from March 2013 to February 2014: ( a) variation in spring ( March to May) ; ( b) variation in summer ( June to August) ; ( c) variation in autumn ( September to November) ; ( d) variation in winter ( December to February of the next year) 散程度和变化规律,图 3 给出了 PM2. 5质量浓度变化 范围的最小值和最大值( 圆形点) 、5% ~ 95% 质量 浓度值( 直线上下须间距) 、25% ~ 75% 质量浓度值 ( 矩形上下间距) 、平均值( 矩形内方点) 和中值( 矩 形内横线) . 由图中平均值可看出,四个季节 PM2. 5 质量浓度日变化整体呈现夜间( 20: 00—23: 00) 较 高、清晨( 4: 00—7: 00) 较低的变化规律,这仅是一 个近似( 伪) 周期现象; 而四个季节 PM2. 5 质量浓度 逐时变化幅度也存在显著差异,从 5% ~ 95% 和 25% ~ 75% 质量浓度分位值来看,秋季 PM2. 5质量浓 度 1 h 均值具有最小的变化幅度,其他三个季节变 化幅度较大,且 PM2. 5质量浓度在各季节不同时间段 也表现出了不同的变化幅度; 这些变化都是由季节 变动、循环变动和部分不规则运动共同决定的. 事 实上,对于 PM2. 5质量浓度复杂的周期性变动,根据 实际的时间长度和样本数,可对时间序列和窗宽进 行不同的划分,越长的变化趋势预测通常需要越长 时间序列的样本数据. 此处结合实际的时间序列长 度和样本数据,以 2013 年 2 月—2014 年 3 月共 12 个月的监测样本为数据基础,四个季节为时间序列, 质量浓度日变化( 1 d) 为时间子序列,24 h 变化为窗 宽,以此建立基于模糊粒化的 PM2. 5质量浓度时序预 测模型. 3 PM2. 5质量浓度时序预测模型的建立 3. 1 监测数据获取及模糊粒化 以城六区海淀万柳监测点为例,选取该监测点 2013--03--11—2013--05--30 ( 春季) 、2013--06--01— 2013--08--30( 夏季) 、2013--09--01—2013--11--29( 秋 季) 和 2013--12--01—2014--02--27( 冬季) 的 1 h 质量 浓度均值作为研究对象,即分别应用四个季节的 1 h 质量浓度均值,预测最后 1 d ( 2013--05--31、2013-- 08--31、2013--11--30 和 2014--02--28) 24 h 的质量浓 · 7961 ·
·1698 北京科技大学学报 第36卷 度变化趋势和范围,并验证预测结果的准确性.其 得出正确结果.采用交叉验证方法选取的参数比随 中,分别取得该监测点四个季节有效数据1761个 机选取参数所得到的模型的回归预测结果更有效, (春季)、2036个(夏季)、2068个(秋季)和2059个 此处采用k重交叉验证法,即将原始数据均分为k (冬季),相应的变化范围分别为y1∈(3,479)μg· 组,将每个子集数据分别做一次验证集,剩余的k- m-3、y2∈(3,560)μgm-3、y3∈(3,381)ugm-3和 1组子集数据作为训练机,用这k个模型最终的验 y4∈(3,589)μg"m-3. 证集的平均准确率作为此交叉验证的性能指标.大 采用式(5)所示的三角型函数对PM2s原始监 量的实验和研究表明s-,采用径向基函数(radial 测数据进行模糊粒化,通过MATLAB平台下的函数 basis function,RBF)为核函数具有较高的拟合和预 接口实现,分别筛选出用于训练和预测的自变量和 测精度,故选用其作为核函数进行研究,如式(7)所 因变量样本集.将原始数据划分为多个窗口,每个 示,其构造的支持向量机回归估计函数如式(8) 窗口生成一个模糊粒子,此处以24h作为一个窗 所示: 宽,窗口数即为原始数据长度除以24后取整.以春 K(x,x)=exp {-Gx;x2),(7) 季的数据样本为例,其原始质量浓度随时间的变化 f(x)= (a;-a;)exp (-Gx;+b. 和数据模糊粒化结果分别如图4和图5所示,其中 图5中的L、R和U为模糊粒子参数,分别表示 (8) PM2,质量浓度值变化的最小值、平均值和最大值. 式中,‖x:-x‖是二范数距离,G是径向基函数的 500 核函数参数.式(7)所示的径向基函数对应的特征 450 空间是无穷维的,使得有限的样本在该特征空间中 400 350 线性可分.对于惩罚参数C和核函数参数G的选 取,采取以下步骤实现:①设定C和G的初始变化 20 范围及步进大小,通过网格划分使其在一定范围内 搜索最佳参数:②选取能达到最高验证回归准确率 150 00 中最小的C及其对应的G作为最佳参数;③若出现 50 多组最小的C及对应的G,则选取搜索到的第一组 20040060080010001200140016001800 C和G作为最佳参数. 时间序列h 3.3基于LIBSVM的回归预测实现 图4质量浓度随时间变化 支持向量机算法的实现采用台湾大学林智仁 Fig.4 Variation of mass concentration with time (Lin Chih-Jen)教授开发的LIBSVM工具箱. 450 LIBSVM具有参数调节较少、便于改进及系统兼容 400 性强的优点,可在MATLAB上实现操作.利用 LIBSVM分别对模糊粒子参数L、R和U进行回归预 测,首先对数据样本进行归一化到0,1]区间的预 处理方式,再应用k重交叉验证的方法搜索并选择 15 使均方差误差δRE最小的最佳回归参数,此处将C 00 和G的初步搜索范围确定为2-“,2],搜索过程 如图6所示,在初步搜索后,根据搜索到的第一组C 和G,缩小搜索范围并进行精细的参数优选,通过再 20 30 40 50 粒化时间序列h 次搜索最终得出最优C和G参数值.利用最优参数 值对原始值进行回归预测,拟合结果如图7所示 图5数据模糊粒化结果 通过图7所示的模糊粒子拟合结果图可以看出L、R Fig.5 Fuzzy granulation of original data 和U的变化趋势及范围.从图中的拟合效果来看, 3.2£一支持向量机参数优化 三者的拟合结果基本与原始数据保持一致的变化趋 支持向量机的性能主要受核函数类型、核函数 势,表明该模型具有较好的预测能力.同理,用夏 参数及惩罚参数的影响网,目前对于核函数及相关 季、秋季和冬季的监测数据样本建立模糊粒化时序 参数的选择仍无统一的模式,需进行有效优化方可 模型,分别对下一个模糊粒子进行回归预测,可得出
北 京 科 技 大 学 学 报 第 36 卷 度变化趋势和范围,并验证预测结果的准确性. 其 中,分别取得该监测点四个季节有效数据 1761 个 ( 春季) 、2036 个( 夏季) 、2068 个( 秋季) 和 2059 个 ( 冬季) ,相应的变化范围分别为 y1∈( 3,479) μg· m - 3、y2∈( 3,560) μg·m - 3、y3∈( 3,381) μg·m - 3和 y4∈( 3,589) μg·m - 3 . 采用式( 5) 所示的三角型函数对 PM2. 5 原始监 测数据进行模糊粒化,通过 MATLAB 平台下的函数 接口实现,分别筛选出用于训练和预测的自变量和 因变量样本集. 将原始数据划分为多个窗口,每个 窗口生成一个模糊粒子,此处以 24 h 作为一个窗 宽,窗口数即为原始数据长度除以 24 后取整. 以春 季的数据样本为例,其原始质量浓度随时间的变化 和数据模糊粒化结果分别如图 4 和图 5 所示,其中 图 5 中 的 L、R 和 U 为模糊粒子参数,分 别 表 示 PM2. 5质量浓度值变化的最小值、平均值和最大值. 图 4 质量浓度随时间变化 Fig. 4 Variation of mass concentration with time 图 5 数据模糊粒化结果 Fig. 5 Fuzzy granulation of original data 3. 2 ε--支持向量机参数优化 支持向量机的性能主要受核函数类型、核函数 参数及惩罚参数的影响[26],目前对于核函数及相关 参数的选择仍无统一的模式,需进行有效优化方可 得出正确结果. 采用交叉验证方法选取的参数比随 机选取参数所得到的模型的回归预测结果更有效, 此处采用 k 重交叉验证法,即将原始数据均分为 k 组,将每个子集数据分别做一次验证集,剩余的 k - 1 组子集数据作为训练机,用这 k 个模型最终的验 证集的平均准确率作为此交叉验证的性能指标. 大 量的实验和研究表明[26--28],采用径向基函数( radial basis function,RBF) 为核函数具有较高的拟合和预 测精度,故选用其作为核函数进行研究,如式( 7) 所 示,其构造的支持向量机回归估计函数如式( 8) 所示: K( xi,xj ) = exp { - G ‖xi - xj‖2 } , ( 7) f( x) = ∑ n i = 1 ( αi - α* i ) exp { - G ‖xi - xj‖2 } + b. ( 8) 式中,‖xi - xj‖是二范数距离,G 是径向基函数的 核函数参数. 式( 7) 所示的径向基函数对应的特征 空间是无穷维的,使得有限的样本在该特征空间中 线性可分. 对于惩罚参数 C 和核函数参数 G 的选 取,采取以下步骤实现: ①设定 C 和 G 的初始变化 范围及步进大小,通过网格划分使其在一定范围内 搜索最佳参数; ②选取能达到最高验证回归准确率 中最小的 C 及其对应的 G 作为最佳参数; ③若出现 多组最小的 C 及对应的 G,则选取搜索到的第一组 C 和 G 作为最佳参数. 3. 3 基于 LIBSVM 的回归预测实现 支持向量机算法的实现采用台湾大学林智仁 ( Lin Chih-Jen ) 教 授 开 发 的 LIBSVM 工 具 箱. LIBSVM 具有参数调节较少、便于改进及系统兼容 性强 的 优 点,可 在 MATLAB 上 实 现 操 作. 利 用 LIBSVM 分别对模糊粒子参数 L、R 和 U 进行回归预 测,首先对数据样本进行归一化到[0,1]区间的预 处理方式,再应用 k 重交叉验证的方法搜索并选择 使均方差误差 δMRE最小的最佳回归参数,此处将 C 和 G 的初步搜索范围确定为[2 - 10,210],搜索过程 如图 6 所示,在初步搜索后,根据搜索到的第一组 C 和 G,缩小搜索范围并进行精细的参数优选,通过再 次搜索最终得出最优 C 和 G 参数值. 利用最优参数 值对原始值进行回归预测,拟合结果如图 7 所示. 通过图 7 所示的模糊粒子拟合结果图可以看出 L、R 和 U 的变化趋势及范围. 从图中的拟合效果来看, 三者的拟合结果基本与原始数据保持一致的变化趋 势,表明该模型具有较好的预测能力. 同理,用夏 季、秋季和冬季的监测数据样本建立模糊粒化时序 模型,分别对下一个模糊粒子进行回归预测,可得出 · 8961 ·