工程科学学报 Chinese Journal of Engineering 基于图像混合核的列生成PM25预测 李晓理张博杨旭 Column-generation PM2s prediction based on image mixture kernel LI Xiao-li.ZHANG Bo.YANG Xu 引用本文: 李晓理,张博,杨旭.基于图像混合核的列生成PM2s预测[.工程科学学报,2020,42(7)922-929.doi:10.13374.iss2095- 9389.2019.07.15.002 LI Xiao-li,ZHANG Bo,YANG Xu.Column-generation PM2s prediction based on image mixture kernel[J]Chinese Journal of Engineering,2020,42(7):922-929.doi:10.13374j.issn2095-9389.2019.07.15.002 在线阅读View online:htps:/ldoi.org/10.13374j.issn2095-9389.2019.07.15.002 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报.2019,41(3:401 https:1doi.org/10.13374.issn2095-9389.2019.03.014 基于IPSO-RELM转炉冶炼终点锰含量预测模型 Improved prediction model for BOF end-point manganese content based on IPSO-RELM method 工程科学学报.2019,41(8):1052htps:1doi.org10.13374斩.issn2095-9389.2019.08.011 磁场形式及参数对单纤维捕集钢铁行业粉尘中PM,性能影响 Performance of single fibercollection PMunder different magnetic field forms in the irn and stee industry 工程科学学报.2020,42(2:154 https:/1doi.org/10.13374.issn2095-9389.2019.02.24.004 新型硬质合金微坑车刀切削能对比研究与预测 Performance comparison and prediction of cutting energy of new cemented carbide micro-pit turning tool 工程科学学报.2017,398):1207 https:/1doi.org/10.13374.issn2095-9389.2017.08.010 无钟高炉炉料分布预测模型 Burden distribution prediction model in a blast furnace with bell-less top 工程科学学报.2017,392:276 https:oi.org/10.13374.issn2095-9389.2017.02.016 BP神经网络F钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报.2017,394:511 https::/1doi.org10.13374.issn2095-9389.2017.04.005
基于图像混合核的列生成PM2.5预测 李晓理 张博 杨旭 Column-generation PM2.5 prediction based on image mixture kernel LI Xiao-li, ZHANG Bo, YANG Xu 引用本文: 李晓理, 张博, 杨旭. 基于图像混合核的列生成PM2.5预测[J]. 工程科学学报, 2020, 42(7): 922-929. doi: 10.13374/j.issn2095- 9389.2019.07.15.002 LI Xiao-li, ZHANG Bo, YANG Xu. Column-generation PM2.5 prediction based on image mixture kernel[J]. Chinese Journal of Engineering, 2020, 42(7): 922-929. doi: 10.13374/j.issn2095-9389.2019.07.15.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报. 2019, 41(3): 401 https://doi.org/10.13374/j.issn2095-9389.2019.03.014 基于IPSO-RELM转炉冶炼终点锰含量预测模型 Improved prediction model for BOF end-point manganese content based on IPSO-RELM method 工程科学学报. 2019, 41(8): 1052 https://doi.org/10.13374/j.issn2095-9389.2019.08.011 磁场形式及参数对单纤维捕集钢铁行业粉尘中PM2.5性能影响 Performance of single fiber collection PM2.5 under different magnetic field forms in the iron and steel industry 工程科学学报. 2020, 42(2): 154 https://doi.org/10.13374/j.issn2095-9389.2019.02.24.004 新型硬质合金微坑车刀切削能对比研究与预测 Performance comparison and prediction of cutting energy of new cemented carbide micro-pit turning tool 工程科学学报. 2017, 39(8): 1207 https://doi.org/10.13374/j.issn2095-9389.2017.08.010 无钟高炉炉料分布预测模型 Burden distribution prediction model in a blast furnace with bell-less top 工程科学学报. 2017, 39(2): 276 https://doi.org/10.13374/j.issn2095-9389.2017.02.016 BP神经网络IF钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报. 2017, 39(4): 511 https://doi.org/10.13374/j.issn2095-9389.2017.04.005
工程科学学报.第42卷.第7期:922-929.2020年7月 Chinese Journal of Engineering,Vol.42,No.7:922-929,July 2020 https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002;http://cje.ustb.edu.cn 基于图像混合核的列生成PM25预测 李晓理2,3,,张博),杨旭)区 1)北京工业大学信息学部,北京1001242)计算智能与智能系统北京市重点实验室,北京1001243)数字社区教育部工程研究中心,北 京1001244)北京未来网络科技高精尖创新中心,北京1001245)北京科技大学自动化学院,北京100083 ☒通信作者,E-mail:yangxu@ustb.edu.cn 摘要传统PM25预测方法获取污染物浓度数据需要大型精密仪器,成本较高.本文尝试利用图像数据进行PM25浓度预 测.大气PM2s浓度的变化与图像的暗通道强度、对比度和HSI(Hue-saturation--intensity)颜色差异有密切联系.大气中 PM25浓度的升高会导致非天空区域的暗通道强度值下降,图像对比度下降和HSI空间颜色差异变小.通过分析PM25浓度 与图像特征的关系,提出了一种基于图像混合核的列生成空气质量PM2预测模型.首先,以1h为采样周期,每日 8:00~17:00为采样范围,采集多种天气条件下的景物图像,提取图像的对比度、暗通道强度和HSI颜色差异共5个图像特 征.其次,数据存在样本规模大、样本不平坦分布等特点,单个核函数构成的预测模型难以满足预测精度需求,因此本文按照 核结构从简单到复杂的原则,选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型.然后计算每个核基于 训练样本的Gram矩阵.并将所有Gram矩阵并列成一个混合核矩阵.利用列生成算法和混合核矩阵建立预测模型,求解模型 参数.最后,进行仿真实验,实验结果表明本文提出的可满足预测精度要求,与单核预测模型相比,该预测模型预测精度更 高,模型稳定性更好.计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加 关键词PM25预测;混合核函数;列生成算法;图像特征;预测模型 分类号TP181 Column-generation PM25 prediction based on image mixture kernel LI Xiao-li2,ZHANG Bo,YANG Xu) 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Engineering Research Center of Digital Community,Beijing 100124,China 4)Beijing Future Network Science and Technology Innovation Center,Beijing 100124,China 5)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:yangxu@ustb.edu.cn ABSTRACT The conventional method of PM2s prediction requires high-precision instruments to obtain data on the concentration of pollutants,resulting in a high prediction costs.In this work,we attempt to use image data to estimate PM2s concentration.The concentration of atmospheric PM2 is closely linked to the image's dark channel intensity,contrast,and color difference of HSI.The increase in atmospheric PM2s concentration leads to a decrease in the non-sky area dark channel intensity,image contrast,and HSI spatial color difference.In this paper,a Column-Generation PM2s prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2s and image features.First,the sampling period was taken as 1 h,and 8:00-17:00 was taken as the sampling range daily.The scene images were recorded in different weather conditions,and five image features were extracted, 收稿日期:2019-07-15 基金项目:国家自然科学基金资助项目(61873006,61473034,61673053):北京市科学重大专项资助项目(Z181100003118012):国家重点研 发计划资助项目(2018YFC1602704.2018YFB1702704)
基于图像混合核的列生成 PM2.5 预测 李晓理1,2,3,4),张 博1),杨 旭5) 苣 1) 北京工业大学信息学部,北京 100124 2) 计算智能与智能系统北京市重点实验室,北京 100124 3) 数字社区教育部工程研究中心,北 京 100124 4) 北京未来网络科技高精尖创新中心,北京 100124 5) 北京科技大学自动化学院,北京 100083 苣通信作者,E-mail:yangxu@ustb.edu.cn 摘 要 传统 PM2.5 预测方法获取污染物浓度数据需要大型精密仪器,成本较高. 本文尝试利用图像数据进行 PM2.5 浓度预 测. 大气 PM2.5 浓度的变化与图像的暗通道强度、对比度和 HSI(Hue-saturation-intensity)颜色差异有密切联系. 大气中 PM2.5 浓度的升高会导致非天空区域的暗通道强度值下降,图像对比度下降和 HSI 空间颜色差异变小. 通过分析 PM2.5 浓度 与图像特征的关系,提出了一种基于图像混合核的列生成空气质量 PM2.5 预测模型. 首先,以 1 h 为采样周期,每日 8:00~17:00 为采样范围,采集多种天气条件下的景物图像,提取图像的对比度、暗通道强度和 HSI 颜色差异共 5 个图像特 征. 其次,数据存在样本规模大、样本不平坦分布等特点,单个核函数构成的预测模型难以满足预测精度需求,因此本文按照 核结构从简单到复杂的原则,选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型. 然后计算每个核基于 训练样本的 Gram 矩阵,并将所有 Gram 矩阵并列成一个混合核矩阵. 利用列生成算法和混合核矩阵建立预测模型,求解模型 参数. 最后,进行仿真实验,实验结果表明本文提出的可满足预测精度要求,与单核预测模型相比,该预测模型预测精度更 高,模型稳定性更好. 计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加. 关键词 PM2.5 预测;混合核函数;列生成算法;图像特征;预测模型 分类号 TP181 Column-generation PM2.5 prediction based on image mixture kernel LI Xiao-li1,2,3,4) ,ZHANG Bo1) ,YANG Xu5) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Engineering Research Center of Digital Community, Beijing 100124, China 4) Beijing Future Network Science and Technology Innovation Center, Beijing 100124, China 5) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: yangxu@ustb.edu.cn ABSTRACT The conventional method of PM2.5 prediction requires high-precision instruments to obtain data on the concentration of pollutants, resulting in a high prediction costs. In this work, we attempt to use image data to estimate PM2.5 concentration. The concentration of atmospheric PM2.5 is closely linked to the image ’s dark channel intensity, contrast, and color difference of HSI. The increase in atmospheric PM2.5 concentration leads to a decrease in the non-sky area dark channel intensity, image contrast, and HSI spatial color difference. In this paper, a Column-Generation PM2.5 prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2.5 and image features. First, the sampling period was taken as 1 h, and 8:00–17:00 was taken as the sampling range daily. The scene images were recorded in different weather conditions, and five image features were extracted, 收稿日期: 2019−07−15 基金项目: 国家自然科学基金资助项目(61873006,61473034,61673053);北京市科学重大专项资助项目(Z181100003118012);国家重点研 发计划资助项目(2018YFC1602704,2018YFB1702704) 工程科学学报,第 42 卷,第 7 期:922−929,2020 年 7 月 Chinese Journal of Engineering, Vol. 42, No. 7: 922−929, July 2020 https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002; http://cje.ustb.edu.cn
李晓理等:基于图像混合核的列生成PM,预测 ·923· including contrast,dark channel intensity,and HSI color difference.Secondly,the image data has the characteristics of large sample size and uneven distribution,and the prediction model consists of a single kernel function,which makes it difficult to meet the prediction accuracy requirement.Therefore,the linear kernel function,polynomial kernel function,and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex.Then each kernel's Gram matrix was calculated based on training samples,and all gram matrices were placed into a mixture kernel matrix.Using the column generation algorithm and mixture kemnel matrix,the prediction model was developed and the parameters of the model were solved.Finally, simulation experiments were performed;the results show that the prediction model based on the image mixture kernel of Column- Generation PM2s can meet the prediction accuracy requirements.The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model.A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2s has no significant increase in computational complexity in comparison with the one- kernel prediction model. KEY WORDS PM,s prediction;mixed kernel function;column generation algorithm;image feature;prediction model 伴随着雾霾在全国各地出现的频率越来越 的预测结果 高,环境问题越来越引起人们的关注,尤其以京津 也有学者利用图像对PM25进行预测.文献[) 冀地区最为明显.PM25是造成雾霾的主要因素, 利用大量室外图像,结合太阳位置、日期、时间、 其在空气中滞留时间长,通过对太阳光的吸收、散 地理信息、天气条件等相关数据对PM2s进行预 射或反射,降低环境可见度;PM2s颗粒被吸入人 测,该方法避免了大气测量装置的限制,为预测 体后,会渗透到肺部组织,引发支气管炎等疾病, PM2s提供了一种更为便捷的方式.文献[8]以手 对人体健康造成危害.加强大气环境污染控制已 机照片为数据源,对良好天气下空间域和变换域 成为亟待解决的问题,通过对PM25预测,可以为 的图像嫡值建立自然度统计模型,通过计算污染 环境治理和人们健康出行提供准确的环境质量信 图像的嫡值的偏差度对PM25进行预测.文献[9) 息,有助于减轻环境污染对群众造成的危害. 对不同天气条件下的照片质量进行分析建模,通 近年来,国内外学者都对PM2.5预测方法进行 过提取PM2.5浓度相关的特征建立粒子群优化的 了卓有成效的研究.文献[】基于单时间序列模型,将 支持向量回归模型,实现了良好的预测效果 动态指数平滑法和动态马尔科夫模型相结合,通 鉴于大气环境复杂多变,PM25预测中需要考 过PM25历史数据预先确定算法的最优参数,对 虑的因素较多,本文在上述研究的基础上,提出了 PM25进行动态预测,并验证了模型的有效性.文 一种基于图像混合核的列生成PM,5预测方法.该 献2]通过构建空间平滑核,对梯度增强算法进行改 方法通过分析图像变化与PM25浓度的关系,提取 进,有效解决了PM25浓度与气溶胶光学深度、气象 图像特征,并利用相关性分析完成特征选择.将图 条件等预测变量之间的空间非平稳性,对日PM2.5 像特征经混合核映射到高维线性空间,有效避免 进行预测.文献[3]提出了一种基于主成分分析和 了单核函数选取不当造成的影响.最后使用列生 最小二乘支持向量机的杜鹃搜索混合模型,并将模 成方法来求解模型参数,保证了解的稀疏性和精 型的预测效果与广义回归神经网络模型作对比,效 确性,实现了对PM25的有效预测 果更优.文献[4]提取大气温度、湿度和风速3个特 1问题描述与数学基础知识 征,训练长短期记忆模型对1h后的PM25污染等级 进行预测,证明了PM25污染与周边地区的气象条 1.1问题描述 件有密切联系.文献[⑤]利用随机数据分析方法,在 PM2s指空气动力学当量直径小于等于2.5m 多变量系统中选择与PM25相关的随机变量,作为 的悬浮物颗粒,会对可见光产生明显的散射作用 神经网络的输入,实现了空气质量预测.文献【6]建 大气中PM25浓度的变化会使图像呈现不同的对 立基于互补集合经验模态分解和支持向量回归的混 比度、暗通道强度、可见度等特征信息,这使得利 合预测模型.对PM25质量浓度的原始时间序列进 用图像实现PM2.5预测成为可能 行分解,得到若干具有不同时间尺度的相对平稳分 1.2数学基础知识 量,采用SVR算法对各个分量分别进行预测,求出 本文采用了基于图像混合核的列生成方法研 各个分量的预测值之和,作为原始PM25质量浓度 究了PM2s预测问题,为了更好地介绍理论的原
including contrast, dark channel intensity, and HSI color difference. Secondly, the image data has the characteristics of large sample size and uneven distribution, and the prediction model consists of a single kernel function, which makes it difficult to meet the prediction accuracy requirement. Therefore, the linear kernel function, polynomial kernel function, and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex. Then each kernel's Gram matrix was calculated based on training samples, and all gram matrices were placed into a mixture kernel matrix. Using the column generation algorithm and mixture kernel matrix, the prediction model was developed and the parameters of the model were solved. Finally, simulation experiments were performed; the results show that the prediction model based on the image mixture kernel of ColumnGeneration PM2.5 can meet the prediction accuracy requirements. The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model. A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2.5 has no significant increase in computational complexity in comparison with the onekernel prediction model. KEY WORDS PM2.5 prediction;mixed kernel function;column generation algorithm;image feature;prediction model 伴随着雾霾在全国各地出现的频率越来越 高,环境问题越来越引起人们的关注,尤其以京津 冀地区最为明显. PM2.5 是造成雾霾的主要因素, 其在空气中滞留时间长,通过对太阳光的吸收、散 射或反射,降低环境可见度;PM2.5 颗粒被吸入人 体后,会渗透到肺部组织,引发支气管炎等疾病, 对人体健康造成危害. 加强大气环境污染控制已 成为亟待解决的问题,通过对 PM2.5 预测,可以为 环境治理和人们健康出行提供准确的环境质量信 息,有助于减轻环境污染对群众造成的危害. 近年来,国内外学者都对 PM2.5 预测方法进行 了卓有成效的研究. 文献 [1] 基于单时间序列模型,将 动态指数平滑法和动态马尔科夫模型相结合,通 过 PM2.5 历史数据预先确定算法的最优参数 ,对 PM2.5 进行动态预测,并验证了模型的有效性. 文 献 [2] 通过构建空间平滑核,对梯度增强算法进行改 进,有效解决了 PM2.5 浓度与气溶胶光学深度、气象 条件等预测变量之间的空间非平稳性,对日 PM2.5 进行预测. 文献 [3] 提出了一种基于主成分分析和 最小二乘支持向量机的杜鹃搜索混合模型,并将模 型的预测效果与广义回归神经网络模型作对比,效 果更优. 文献 [4] 提取大气温度、湿度和风速 3 个特 征,训练长短期记忆模型对 1 h 后的 PM2.5 污染等级 进行预测,证明了 PM2.5 污染与周边地区的气象条 件有密切联系. 文献 [5] 利用随机数据分析方法,在 多变量系统中选择与 PM2.5 相关的随机变量,作为 神经网络的输入,实现了空气质量预测. 文献 [6] 建 立基于互补集合经验模态分解和支持向量回归的混 合预测模型. 对 PM2.5 质量浓度的原始时间序列进 行分解,得到若干具有不同时间尺度的相对平稳分 量,采用 SVR 算法对各个分量分别进行预测,求出 各个分量的预测值之和,作为原始 PM2.5 质量浓度 的预测结果. 也有学者利用图像对 PM2.5 进行预测. 文献 [7] 利用大量室外图像,结合太阳位置、日期、时间、 地理信息、天气条件等相关数据对 PM2.5 进行预 测,该方法避免了大气测量装置的限制,为预测 PM2.5 提供了一种更为便捷的方式. 文献 [8] 以手 机照片为数据源,对良好天气下空间域和变换域 的图像熵值建立自然度统计模型,通过计算污染 图像的熵值的偏差度对 PM2.5 进行预测. 文献 [9] 对不同天气条件下的照片质量进行分析建模,通 过提取 PM2.5 浓度相关的特征建立粒子群优化的 支持向量回归模型,实现了良好的预测效果. 鉴于大气环境复杂多变,PM2.5 预测中需要考 虑的因素较多,本文在上述研究的基础上,提出了 一种基于图像混合核的列生成 PM2.5 预测方法. 该 方法通过分析图像变化与 PM2.5 浓度的关系,提取 图像特征,并利用相关性分析完成特征选择. 将图 像特征经混合核映射到高维线性空间,有效避免 了单核函数选取不当造成的影响. 最后使用列生 成方法来求解模型参数,保证了解的稀疏性和精 确性,实现了对 PM2.5 的有效预测. 1 问题描述与数学基础知识 1.1 问题描述 PM2.5 指空气动力学当量直径小于等于 2.5 μm 的悬浮物颗粒,会对可见光产生明显的散射作用. 大气中 PM2.5 浓度的变化会使图像呈现不同的对 比度、暗通道强度、可见度等特征信息,这使得利 用图像实现 PM2.5 预测成为可能. 1.2 数学基础知识 本文采用了基于图像混合核的列生成方法研 究了 PM2.5 预测问题,为了更好地介绍理论的原 李晓理等: 基于图像混合核的列生成 PM2.5 预测 · 923 ·
924 工程科学学报,第42卷,第7期 理,下面对方法中需要用到的一些数学基础知识 以获得最优解 进行简单地说明 基于决策函数(5),重写文献[13]中的线性列 1.2.1混合核 生成增强算法,使用2范数正则化构建如下凸二 核方法被证明了是解决许多应用中推理问题 次规划问题: 的有效方法.通过引入正半定核,可以使用线性 1 学习算法创建非线性模型.给定观测样本(x1, mina.2 y1),(x2,2),…,(x,y》∈X×Y.其中输入空间XeR, d (6) 输出空间Y∈R(回归问题),通过非线性映射: S.t. y〉Kij+≥1,5i≥0,i=1,…,l Φ:X→F x→(x) (1) a≥0,j=1,…,d 把输入数据映射到一个新的特征空间F={(xx∈X, 求得其对偶问题为: d 其中F∈R”,原问题转化为: maxuming 1 i2 {(x1)y),(p(x2)y2),…,(x,ym}eF×Y(2) (7) 在满足Mercer条件情况下,一定存在一个特征空 s.t. uiyiKii≤aj,j=1,…,d, 间F和一个映射Φ:X→F,使得 i=I k(x,z)=x)Xz) 0≤h≤C,i=1,…,1 (3) 求解式(6)和(7)的最优解为(@,,),根据文 k(x,z)即为核函数. 献[13引,验证如下问题: 核函数有两种主要的类型:全局核函数和局 部核函数,局部性核函数学习能力强、泛化性能较 T=max∑y,K (8) 弱,而全局性核函数泛化性能强、学习能力较弱, j 式中,遍历核矩阵中的所有列.列生成算法将 因此考虑把这两类核函数混合起来构成混合核函 列系数α分为两部分,使用启发式算法选出的一部 数.对文献[10]中混合核函数的形式进行扩展得 ,. 分W用于训练模型,未选中的部分N作为备选,假 到多核混合核函数的形式为k(x,)= 设未选中的部分αW=0,通过求解式(6)和(7)得当 其中k(x,z)为单核函数,p是对应的核函数编号, 前最优解得a",则d=(a",=0).经文献[14证 4p为组合系数.由SVM决策函数可知,混合核函 明,(位,,)是原始-对偶问题的当前最优解,如果 数的决策函数为: 对于所有的jEN∑K≤0,则位,店即为满足 =1 (4) KKT条件的全局最优解.对于线性列生成增强模 式中,α是模型参数,x是第个输入向量.本文中, 型,每次选择N中使∑K,最大的列K加入到约 i=l 不单独计算每个核矩阵(核对样本的Gram矩阵), 束问题中 而是采用混合模型,其决策函数为: 将列生成增强算法推广到解决具有不敏感参 f=∑∑k,x》 数s的损失函数maxy-fx川-s,0的回归问题, (5) j=1p= 模型的下限约束α>0为非必需条件,所以在原模 1.22列生成 型中去除下限约束.为了构建回归模型,本文将偏 离真实值至少ε的点作为误差点.使用2范数正则 列生成算法是用于求解大型线性规划问题的 一种重要方法.在原始问题中,列生成算法并不是 化,对应的凸二次规划问题为: d 一次性求解出所有参数心,而是选取混合核矩阵 mina2Z a+C(⑤+m) K(构造方法在第4章介绍)的列子集并求解对应 的α的最优解四.根据拉格朗日对偶性,通过求 S.t. Kjj+≥7-e,i=1,…,l 解对偶问题可得到原始问题的最优解.原始问题 (9) 的每一列对应于对偶问题的一个约束,当约束问 K+i≥-%-e,i=1,…, 题的解违反对偶问题中不存在的约束时,则需将 台 该约束(原始问题中的一列)添加到约束问题中, 5≥0,≥0,i=1,…,1
理,下面对方法中需要用到的一些数学基础知识 进行简单地说明. 1.2.1 混合核 K {(x1, y1),(x2, y2),··· ,(xl , yl)} ∈ X×Y X ∈ R n Y ∈ R 核方法被证明了是解决许多应用中推理问题 的有效方法. 通过引入正半定核 ,可以使用线性 学习算法创建非线性模型. 给定观测样本 . 其中输入空间 , 输出空间 (回归问题),通过非线性映射: Φ : X → F x 7→ Φ(x) (1) F = {Φ(x)|x ∈ X} F ∈ R n 把输入数据映射到一个新的特征空间 , 其中 ,原问题转化为: {(Φ(x1), y1),(Φ(x2), y2),··· ,(Φ(xl), yl)} ∈ F×Y (2) F Φ : X → F 在满足 Mercer 条件情况下,一定存在一个特征空 间 和一个映射 ,使得 k(x,z) = Φ(x)×Φ(z) (3) k(x,z) 即为核函数. k(x,z) = ∑ P p=1 µpkp(x,z) kp (x,z) p µp 核函数有两种主要的类型:全局核函数和局 部核函数,局部性核函数学习能力强、泛化性能较 弱,而全局性核函数泛化性能强、学习能力较弱, 因此考虑把这两类核函数混合起来构成混合核函 数. 对文献 [10] 中混合核函数的形式进行扩展得 到多核混合核函数的形式为 , 其中 为单核函数, 是对应的核函数编号, 为组合系数. 由 SVM 决策函数可知,混合核函 数的决策函数为: f(x) = ∑ l j=1 αj (∑ p µpkp(x, xj) ) (4) α xj 式中, 是模型参数, 是第 j 个输入向量. 本文中, 不单独计算每个核矩阵(核对样本的 Gram 矩阵), 而是采用混合模型,其决策函数为: f(x) = ∑ l j=1 ∑ P p=1 α p j kp(x, xj) (5) 1.2.2 列生成 α K α 列生成算法是用于求解大型线性规划问题的 一种重要方法. 在原始问题中,列生成算法并不是 一次性求解出所有参数 ,而是选取混合核矩阵 (构造方法在第 4 章介绍)的列子集并求解对应 的 的最优解[11] . 根据拉格朗日对偶性[12] ,通过求 解对偶问题可得到原始问题的最优解. 原始问题 的每一列对应于对偶问题的一个约束,当约束问 题的解违反对偶问题中不存在的约束时,则需将 该约束(原始问题中的一列)添加到约束问题中, 以获得最优解. 基于决策函数(5),重写文献 [13] 中的线性列 生成增强算法,使用 2 范数正则化构建如下凸二 次规划问题: minα,ξ 1 2 ∑ d j=1 α 2 j +C ∑ l i=1 ξi s.t. yi ∑ d j=1 Ki jαj +ξi ⩾ 1, ξi ⩾ 0,i = 1,··· ,l, αi ⩾ 0, j = 1,··· ,d (6) 求得其对偶问题为: maxuminα ∑ l i=1 ui − 1 2 ∑ d j=1 α 2 j s.t. ∑ l i=1 uiyiKi j ⩽ αj , j = 1,··· ,d, 0 ⩽ ui ⩽ C,i = 1,··· ,l (7) (αˆ,ξˆ 求解式(6)和(7)的最优解为 ,uˆ) ,根据文 献 [13],验证如下问题: τ = max j ∑ l i=1 uˆiyiKi j (8) j K α W N α N = 0 α W αˆ= (α W ,α N= 0) (αˆ,ξˆ,uˆ) j ∈ N, ∑ l i=1 uiyiKi j ⩽ 0 (αˆ,ξˆ,uˆ) N ∑ l i=1 uiyiKi j K· j 式中, 遍历核矩阵 中的所有列. 列生成算法将 列系数 分为两部分,使用启发式算法选出的一部 分 用于训练模型,未选中的部分 作为备选,假 设未选中的部分 ,通过求解式(6)和(7)得当 前最优解得 ,则 . 经文献 [14] 证 明, 是原始–对偶问题的当前最优解,如果 对于所有的 ,则 即为满足 KKT 条件的全局最优解. 对于线性列生成增强模 型,每次选择 中使 最大的列 加入到约 束问题中. ε max{|y− f(x)|−ε,0} α > 0 ε 将列生成增强算法推广到解决具有不敏感参 数 的损失函数 的回归问题[15] , 模型的下限约束 为非必需条件,所以在原模 型中去除下限约束. 为了构建回归模型,本文将偏 离真实值至少 的点作为误差点. 使用 2 范数正则 化,对应的凸二次规划问题为: minα,ξ,η 1 2 ∑ d j=1 α 2 j +C ∑ l i=1 (ξi +ηi) s.t. ∑ l i=1 Ki jαj +ξi ⩾ yi −ε,i = 1,··· ,l, − ∑ l i=1 Ki jαj +ηi ⩾ −yi −ε,i = 1,··· ,l, ξi ⩾ 0,ηi ⩾ 0,i = 1,··· ,l. (9) · 924 · 工程科学学报,第 42 卷,第 7 期
李晓理等:基于图像混合核的列生成PM25预测 925· 设,为拉格朗日乘子,则原始问题(9)的对 将式(14)和(15)代入大气透射模型中,得: 偶问题为: t(x)=1-minmin y) EQ(x)C Ac (16) maxuy mina 式中,A为大气光,因此将(x)选为特征Fia 2.1.3HSI颜色差异(Fh,Fis,F) s.t ==a 根据Kim等的研究2o,天空在HSI颜色空间 (10) 中颜色差异与大气消光bx存在指数关系,可表示 同理,求解如下问题: 为:bet=aeAD,式中a和b为模型参数,△D用来描 述HSI空间中的差异.由于很难获取bext中在HSI r max (11) 三部分的影响参数,因此使用三部分在H$I颜色 jEN 空间的差异值作为特征,定义如下: 解为K;经文献[14)证明,若π=0,则当前最优解 (@,,,i,)即为回归问题的全局最优解,否则,将 之Vdaw2+y2 Fih=- 15 K;加入到约束问题中去 y=1x=1 (17) dh(x)=In(x,y)-In(x+1,y) 2图像特征提取与相关性分析 d(y)=h(xy)-n(x.y+1) 式中,1是输入图像,其像素为m*n,h(x,y)是像素 空气中的雾霾会对图像造成严重的影响,会 点(,y)的h值.同样,Fs和F定义如下: 导致图像的一些特征值变低,尤其会影响图像的 1 对比度、视见度、暗通道强度等本文提取多个 Vd.(x)2+d(y)2 (18) 与雾霾相关的图像特征,并将图像特征与PM25值 做相关性分析完成特征选择 Fi=-1 Vdi(x)2+dicy)2 (19) 2.1特征提取 y=l x=l 本节提取与PM2.5浓度相关的空间对比度、非天 2.2相关性分析 空区域的暗通道强度、HSI空间颜色差异等特征. 采用皮尔逊相关系数对图像特征进行相关性 2.1.1空间对比度(Fg) 计算.皮尔逊相关系数广泛用于度量两个变量之 大气透射是指光线从场景辐射到观察者时, 间的相关程度,其值介于-1与1之间.其中1表示 减去空气中颗粒物等的折射剩余的部分,是一个 完全正相关.其形式如下: 0到1之间的标量.根据大气透射模型,大气光的 消光与透射率呈反比关系,两者满足如下公式: (X-)Y-) 1(x)=exp-bexr() (12) (20) 式中,bex是消光系数,r(x)是光的传输距离.根据 -2 文献[18: 特征与PM25浓度值相关性越强,该特征越能 VI()=1(x)VxJ() (13) 表示图像的信息.当两组数据相关性系数大于 定义空间对比度Fig为:Fg=Vxl(x 0.6时,可认为两组数据相关性较强,当相关性系 2.1.2暗通道强度(Fid) 数小于0.6时认为两组数据相关性较弱.因此,本 图像的暗通道强度定义为: 文选择与PM25相关性系数绝对值大于0.6的特征 Jark(闭)=f (14) 作为最终模型训练特征. 式中,2(x)是以像素x为中心的分块,J为场景辐射 3基于图像混合核的列生成PM2s预测 光,J“表示其中一个颜色通道.从式中可以看出, PM,5浓度变化主要影响图像对比度、非天空 给定像素的暗通道强度值为该分块三颜色同道中 区域的暗通道强度、HSI空间颜色差异.由于图像 的最小值.大量无雾霾图像的先验知识表明,无雾 特征与PM2s浓度呈非线性关系,考虑到普通核 霾图像的暗通道强度值为0,即: 函数各有利弊,为了得到学习能力和泛化能力都 Jark→0 (15) 很强的核函数,采用混合核的方法建立图像特征
设ui,vi 为拉格朗日乘子,则原始问题(9)的对 偶问题为: maxu,v minα 1 2 ∑ d j=1 α 2 j + ∑ l i=1 (ui −vi)yi − ∑ l i=1 (ui +vi)ε s.t. ∑ l i=1 (ui −vi)Ki j = αj (10) 同理,求解如下问题: τ = max j∈N ∑ l i=1 ( ˆui −vˆi)Ki j (11) K· ˆj τ = 0 (αˆ,ξˆ,ηˆ,uˆ, vˆ) K· ˆj 解为 . 经文献 [14] 证明,若 ,则当前最优解 即为回归问题的全局最优解,否则,将 加入到约束问题中去. 2 图像特征提取与相关性分析 空气中的雾霾会对图像造成严重的影响,会 导致图像的一些特征值变低,尤其会影响图像的 对比度、视见度、暗通道强度等[16] . 本文提取多个 与雾霾相关的图像特征,并将图像特征与 PM2.5 值 做相关性分析完成特征选择. 2.1 特征提取 本节提取与 PM2.5 浓度相关的空间对比度、非天 空区域的暗通道强度、HSI 空间颜色差异等特征. 2.1.1 空间对比度( Fig ) 大气透射是指光线从场景辐射到观察者时, 减去空气中颗粒物等的折射剩余的部分,是一个 0 到 1 之间的标量. 根据大气透射模型,大气光的 消光与透射率呈反比关系,两者满足如下公式[17] : t(x) = exp−bextr(x) (12) 式中, bext是消光系数,r(x) 是光的传输距离. 根据 文献 [18]: |∇xI(x)| = t(x)|∇x J(x)| (13) 定义空间对比度 Fig 为: Fig = |∇xI(x)|. 2.1.2 暗通道强度( Fid ) 图像的暗通道强度定义为[19] : Jdark(x) = min y∈Ω(x) { min c∈{r,g,b} J c (y) } (14) Ω(x) x J J c 式中, 是以像素 为中心的分块, 为场景辐射 光, 表示其中一个颜色通道. 从式中可以看出, 给定像素的暗通道强度值为该分块三颜色同道中 的最小值. 大量无雾霾图像的先验知识表明,无雾 霾图像的暗通道强度值为 0,即: Jdark → 0 (15) 将式(14)和(15)代入大气透射模型中,得: t(x) = 1− min y∈Ω(x) { min c I c (y) Ac } (16) A c 式中, 为大气光,因此将 t(x) 选为特征 Fid. 2.1.3 HSI 颜色差异( Fih,Fis,Fii ) bext bext = aeb∆D a b ∆D bext 根据 Kim 等的研究[20] ,天空在 HSI 颜色空间 中颜色差异与大气消光 存在指数关系,可表示 为 : ,式中 和 为模型参数, 用来描 述 HSI 空间中的差异. 由于很难获取 中在 HSI 三部分的影响参数,因此使用三部分在 HSI 颜色 空间的差异值作为特征,定义如下: Fih = 1 m∗ n ∑n y=1 ∑m x=1 √ dh(x) 2 +dh(y)2 dh(x) = Ih(x, y)− Ih(x+1, y) dh(y) = Ih(x, y)− Ih(x, y+1) (17) I m∗ n Ih(x, y) (x, y) h Fis Fii 式中, 是输入图像,其像素为 , 是像素 点 的 值. 同样, 和 定义如下: Fis = 1 m∗ n ∑n y=1 ∑m x=1 √ ds(x) 2 +ds(y) 2 (18) Fii = 1 m∗ n ∑n y=1 ∑m x=1 √ di(x) 2 +di(y) 2 (19) 2.2 相关性分析 采用皮尔逊相关系数对图像特征进行相关性 计算. 皮尔逊相关系数广泛用于度量两个变量之 间的相关程度,其值介于–1 与 1 之间,其中 1 表示 完全正相关. 其形式如下: r = ∑n i=1 (Xi − X¯)(Yi −Y¯) vt∑n i=1 (Xi − X¯) 2 vt∑n i=1 (Yi −Y¯) 2 (20) 特征与 PM2.5 浓度值相关性越强,该特征越能 表示图像的信息. 当两组数据相关性系数大于 0.6 时,可认为两组数据相关性较强,当相关性系 数小于 0.6 时认为两组数据相关性较弱. 因此,本 文选择与 PM2.5 相关性系数绝对值大于 0.6 的特征 作为最终模型训练特征. 3 基于图像混合核的列生成 PM2.5 预测 PM2.5 浓度变化主要影响图像对比度、非天空 区域的暗通道强度、HSI 空间颜色差异. 由于图像 特征与 PM2.5 浓度呈非线性关系[21] ,考虑到普通核 函数各有利弊,为了得到学习能力和泛化能力都 很强的核函数,采用混合核的方法建立图像特征 李晓理等: 基于图像混合核的列生成 PM2.5 预测 · 925 ·