工程科学学报,第41卷,第10期:1332-1341,2019年10月 Chinese Journal of Engineering,Vol.41,No.10:1332-1341,October 2019 D0I:10.13374/j.issn2095-9389.2018.10.15.001;http:/journals.ustb.edu.cn 基于增强学习算法的插电式燃料电池电动汽车能量管 理控制策略 林歆悠12),夏玉田),魏申中) 1)福州大学机械工程及自动化学院,福州350002 2)流体动力与电液智能控制福建省高校重点实验室(福州大学),福州350002 ☒通信作者,E-mail:linxinyoou@fu.cdu.cn 摘要以一款插电式燃料电池电动汽车(plug-in fuel cell electric vehicle,PFCEV)为研究对象,为改善燃料电池氢气消耗和 电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实 时能量分配的即时回报及未来累积折扣回报,以整车作为环境,整车控制作为智能体,提出了一种基于增强学习算法的插电 式燃料电池电动汽车能量管理控制策略.通过Matlab/Simulink建立整车仿真模型对所提出的策略进行仿真验证,相比于基于 规则的策略,在不同行驶里程下,电池均可保持一定的电量,整车的综合能耗得到明显降低,在100、200和300km行驶里程下 整车百公里能耗分别降低8.84%、29.5%和38.6%:基于快速原型开发平台进行硬件在环试验验证,城市行驶工况工况下整 车综合能耗降低20.8%,硬件在环试验结果与仿真结果基本一致,表明了所制定能量管理策略的有效性和可行性. 关键词燃料电池汽车;增强学习;能量管理;Q_learning算法;控制策略 分类号TG142.71 Energy management control strategy for plug-in fuel cell electric vehicle based on reinforcement learning algorithm LIN Xin-you'),XIA Yu-tian',WEI Shen-shen') 1)College of Mechanical Engineering and Automation,Fuzhou University,Fuzhou 350002,China 2)Key Laboratory of Fluid Power and Intelligent Electro-Hydraulic Control,Fuzhou University,Fuzhou 350002,China Corresponding author,E-mail:linxinyoou@fa.edu.cn ABSTRACT To cope with the increasingly stringent emission regulations,major automobile manufacturers have been focusing on the development of new energy vehicles.Fuel-cell vehicles with advantages of zero emission,high efficiency,diversification of fuel sources,and renewable energy have been the focus of international automotive giants and Chinese automotive enterprises.Establishing a reasonable energy management strategy,effectively controlling the vehicle working mode,and reasonably using battery energy for hy- brid fuel-cell vehicles are core technologies in domestic and foreign automobile enterprises and research institutes.To improve the equi- librium between fuel-cell hydrogen consumption and battery consumption and realize the optimal energy distribution between fuel-cell systems and batteries for plug-in fuel-cell electric vehicles(PFCEVs),considering vehicles as the environment and vehicle control as an agent,an energy management strategy for the PFCEV based on reinforcement learning algorithm was proposed in this paper.This strategy considered the immediate return and future cumulative discounted returns of a fuel-cell vehicle's real-time energy allocation. The vehicle simulation model was built by Matlab/Simulink to carry out the simulation test for the proposed strategy.Compared with the rule-based strategy,the battery can store a certain amount of electricity,and the integrated energy consumption of the vehicle was nota- bly reduced under different mileages.The energy consumption in 100 km was reduced by 8.84%,29.5%,and 38.6%under 100. 收稿日期:2018-10-15 基金项目:国家自然科学基金资助项目(51505086)
工程科学学报,第 41 卷,第 10 期:1332鄄鄄1341,2019 年 10 月 Chinese Journal of Engineering, Vol. 41, No. 10: 1332鄄鄄1341, October 2019 DOI: 10. 13374 / j. issn2095鄄鄄9389. 2018. 10. 15. 001; http: / / journals. ustb. edu. cn 基于增强学习算法的插电式燃料电池电动汽车能量管 理控制策略 林歆悠1,2) 苣 , 夏玉田1) , 魏申申1) 1)福州大学机械工程及自动化学院, 福州 350002 2)流体动力与电液智能控制福建省高校重点实验室(福州大学), 福州 350002 苣通信作者, E鄄mail: linxinyoou@ fzu. edu. cn 摘 要 以一款插电式燃料电池电动汽车(plug鄄in fuel cell electric vehicle, PFCEV)为研究对象,为改善燃料电池氢气消耗和 电池电量消耗之间的均衡,实现插电式燃料电池电动汽车的燃料电池与动力电池之间的最优能量分配,考虑燃料电池汽车实 时能量分配的即时回报及未来累积折扣回报,以整车作为环境,整车控制作为智能体,提出了一种基于增强学习算法的插电 式燃料电池电动汽车能量管理控制策略. 通过 Matlab / Simulink 建立整车仿真模型对所提出的策略进行仿真验证,相比于基于 规则的策略,在不同行驶里程下,电池均可保持一定的电量,整车的综合能耗得到明显降低,在 100、200 和 300 km 行驶里程下 整车百公里能耗分别降低 8郾 84% 、29郾 5% 和 38郾 6% ;基于快速原型开发平台进行硬件在环试验验证,城市行驶工况工况下整 车综合能耗降低 20郾 8% ,硬件在环试验结果与仿真结果基本一致,表明了所制定能量管理策略的有效性和可行性. 关键词 燃料电池汽车; 增强学习; 能量管理; Q_learning 算法; 控制策略 分类号 TG142郾 71 收稿日期: 2018鄄鄄10鄄鄄15 基金项目: 国家自然科学基金资助项目(51505086) Energy management control strategy for plug鄄in fuel cell electric vehicle based on reinforcement learning algorithm LIN Xin鄄you 1,2) 苣 , XIA Yu鄄tian 1) , WEI Shen鄄shen 1) 1)College of Mechanical Engineering and Automation, Fuzhou University, Fuzhou 350002, China 2)Key Laboratory of Fluid Power and Intelligent Electro鄄Hydraulic Control, Fuzhou University, Fuzhou 350002, China 苣Corresponding author, E鄄mail: linxinyoou@ fzu. edu. cn ABSTRACT To cope with the increasingly stringent emission regulations, major automobile manufacturers have been focusing on the development of new energy vehicles. Fuel鄄cell vehicles with advantages of zero emission, high efficiency, diversification of fuel sources, and renewable energy have been the focus of international automotive giants and Chinese automotive enterprises. Establishing a reasonable energy management strategy, effectively controlling the vehicle working mode, and reasonably using battery energy for hy鄄 brid fuel鄄cell vehicles are core technologies in domestic and foreign automobile enterprises and research institutes. To improve the equi鄄 librium between fuel鄄cell hydrogen consumption and battery consumption and realize the optimal energy distribution between fuel鄄cell systems and batteries for plug鄄in fuel鄄cell electric vehicles (PFCEVs), considering vehicles as the environment and vehicle control as an agent, an energy management strategy for the PFCEV based on reinforcement learning algorithm was proposed in this paper. This strategy considered the immediate return and future cumulative discounted returns of a fuel鄄cell vehicle爷 s real鄄time energy allocation. The vehicle simulation model was built by Matlab / Simulink to carry out the simulation test for the proposed strategy. Compared with the rule鄄based strategy, the battery can store a certain amount of electricity, and the integrated energy consumption of the vehicle was nota鄄 bly reduced under different mileages. The energy consumption in 100 km was reduced by 8郾 84% , 29郾 5% , and 38郾 6% under 100
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1333· 200,and 300 km mileages,respectively.The hardware-in-loop-test was performed on the D2P development platform,and the final en- ergy consumption of the vehicle was reduced by 20.8%under urban dynamometer driving schedule driving cycle.The hardware-in loop-test results are consistent with the simulation findings,indicating the effectiveness and feasibility of the proposed energy manage- ment strategy. KEY WORDS fuel-cell vehicle;reinforcement learning;energy management;Q_learning algorithm;control strategy 面对越来越严苛的排放法规,各大汽车厂商纷 合动态规划与等效消耗最小策略,通过动态规划对 纷着力发展新能源汽车,具有零排放、效率高、燃料 等效消耗最小策略的等效系数EF进行优化的基础 来源多元化、能源可再生等优势的燃料电池汽车,一 上,提出简化的等效系数优化方法.Murgovski等)] 直是国际汽车巨头及中国汽车企业重点研究的对 采用庞特里亚金极小值原理(pontryagin minimum 象).仅采用燃料电池作为动力源的燃料电池动力 principle,PMP)优化算法,寻找单一路径来实现系 系统,输出特性疲软,动态响应能力较差[),因此, 统的优化控制,其计算速度相比于动态规划算法快 燃料电池汽车一般采用燃料电池+动力电池或超级 的多,仿真结果与基于动态规划的能量管理策略进 电容的混合动力驱动构型).针对混合动力燃料电 行对比,发现基于庞特里亚金极小值原理的策略只 池汽车,建立合理的能量管理策略,有效控制车辆工 比基于动态规划的策略的经济性降低了0.35%. 作模式、合理使用电池的能量[46],是国内外汽车企 基于已知工况的策略,仅在历史行驶数据的基 业以及研究机构研究的核心技术之一[) 础上进行预测,不能实现准确的控制,从而无法达到 车辆的行驶里程、行驶工况等因素会直接影响 真正意义上的实时优化.基于优化算法的最优能量 混合动力车辆的动力分配以及工作模式的划分,从 管理策略通常需要建立能够良好地反映系统特性的 而影响整车经济性.Lin等[]采用六个典型的驾驶 精确模型,如等效消耗最小策略中的等效系数估计 模式来表征不同工况,对每个典型的驾驶模式应用 模型,这使得能量管理策略的建立过程变得十分复 动态规划方法寻找全局最优解,通过提炼全局最优 杂:其次,这些最优能量管理策略不能根据实际的工 结果给出各个典型驾驶模式下可以直接应用的优化 况进行策略更新迭代,使得控制策略不具有时效性 策略.林歆悠与孙冬野)选定了四种典型城市工 和拓展性.针对传统最优能量管理策略在这些方面 况,采用学习向量量化(LVQ)神经网络模型进行工 存在的问题,本文以插电式燃料电池电动汽车(P℉- 况识别,并根据工况识别结果制定了工况自适应功 CEV)为研究对象,提出了一种基于增强学习(rein- 率均衡规则控制策略.为了达到良好的优化效果, forcement learning,RL)算法的插电式燃料电池电 同时解决工程经验适应性差的问题,很多文献提出 动汽车能量管理策略 了基于优化算法的最优能量管理策略.朱元等[] 本文的内容结构如下,在第一节,根据插电式燃 利用马尔可夫决策理论获得混合动力汽车的随机能 料电池汽车动力系统特点,建立包括整车、燃料电池 量管理策略.石英乔等)基于瞬时优化的方法开 系统和锂离子电池等关键部件的模型:第二节描述 展能量分配策略研究,并引入了蓄电池等价燃料消 了整车能量管理的优化控制模型:第三节描述了状 耗理论.王钦普等)提出了一种基于粒子群算法 态转移概率矩阵的计算以及该能量管理策略的构建 (particle swarm optimization,PSO)的等效消耗最小 和实现方法;第四节给出了该策略与其他策略的仿 equivalent consumption minimization strategy, 真及硬件在环试验结果对比和分析:最后给出了 ECMS),可实现不同初始电池荷电状态(state of 结论 charge,SOC)下能量管理策略的近似全局优化.文 1插电式燃料电池汽车动力系统建模 献[13]在等效氢消耗最小的基础上,考虑电池荷电 状态、等效系数与燃油消耗的关系,利用遗传算法离 1.1车辆模型 线优化等效系数.文献[14]针对等效氢气消耗最小 本文所研究的插电式燃料电池汽车的动力系统 策略中的等效系数通过动态规划(dynamic program- 结构为并联型结构,主要由驱动系统、锂离子动力电 ming,DP)进行全局优化,优化效果明显,但难以在 池、燃料电池系统及相应的控制器组成,如图1所 实车中实现.文献[15]将不同模式下的燃料电池衰 示.燃料电池系统通过DC/DC(直流转直流)变换 退速率与等效氢气消耗构成多目标的优化,但策略 器连接到直流母线,锂离子电池组直接连接到母线 复杂,实际适应性不高.Han等[16]基于特定工况结 以维持直流线路电压,相应的整车与关键部件参数
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 200, and 300 km mileages, respectively. The hardware鄄in鄄loop鄄test was performed on the D2P development platform, and the final en鄄 ergy consumption of the vehicle was reduced by 20郾 8% under urban dynamometer driving schedule driving cycle. The hardware鄄in loop鄄test results are consistent with the simulation findings, indicating the effectiveness and feasibility of the proposed energy manage鄄 ment strategy. KEY WORDS fuel鄄cell vehicle; reinforcement learning; energy management; Q_learning algorithm; control strategy 面对越来越严苛的排放法规,各大汽车厂商纷 纷着力发展新能源汽车,具有零排放、效率高、燃料 来源多元化、能源可再生等优势的燃料电池汽车,一 直是国际汽车巨头及中国汽车企业重点研究的对 象[1] . 仅采用燃料电池作为动力源的燃料电池动力 系统,输出特性疲软,动态响应能力较差[2] ,因此, 燃料电池汽车一般采用燃料电池 + 动力电池或超级 电容的混合动力驱动构型[3] . 针对混合动力燃料电 池汽车,建立合理的能量管理策略,有效控制车辆工 作模式、合理使用电池的能量[4鄄鄄6] ,是国内外汽车企 业以及研究机构研究的核心技术之一[7] . 车辆的行驶里程、行驶工况等因素会直接影响 混合动力车辆的动力分配以及工作模式的划分,从 而影响整车经济性. Lin 等[8] 采用六个典型的驾驶 模式来表征不同工况,对每个典型的驾驶模式应用 动态规划方法寻找全局最优解,通过提炼全局最优 结果给出各个典型驾驶模式下可以直接应用的优化 策略. 林歆悠与孙冬野[9] 选定了四种典型城市工 况,采用学习向量量化(LVQ)神经网络模型进行工 况识别,并根据工况识别结果制定了工况自适应功 率均衡规则控制策略. 为了达到良好的优化效果, 同时解决工程经验适应性差的问题,很多文献提出 了基于优化算法的最优能量管理策略. 朱元等[10] 利用马尔可夫决策理论获得混合动力汽车的随机能 量管理策略. 石英乔等[11] 基于瞬时优化的方法开 展能量分配策略研究,并引入了蓄电池等价燃料消 耗理论. 王钦普等[12] 提出了一种基于粒子群算法 (particle swarm optimization, PSO)的等效消耗最小 策略 ( equivalent consumption minimization strategy, ECMS),可实现不同初始电池荷电状态 ( state of charge, SOC)下能量管理策略的近似全局优化. 文 献[13]在等效氢消耗最小的基础上,考虑电池荷电 状态、等效系数与燃油消耗的关系,利用遗传算法离 线优化等效系数. 文献[14]针对等效氢气消耗最小 策略中的等效系数通过动态规划( dynamic program鄄 ming,DP)进行全局优化,优化效果明显,但难以在 实车中实现. 文献[15]将不同模式下的燃料电池衰 退速率与等效氢气消耗构成多目标的优化,但策略 复杂,实际适应性不高. Han 等[16] 基于特定工况结 合动态规划与等效消耗最小策略,通过动态规划对 等效消耗最小策略的等效系数 EF 进行优化的基础 上,提出简化的等效系数优化方法. Murgovski 等[17] 采用庞特里亚金极小值原理( pontryagin minimum principle, PMP) 优化算法,寻找单一路径来实现系 统的优化控制,其计算速度相比于动态规划算法快 的多,仿真结果与基于动态规划的能量管理策略进 行对比,发现基于庞特里亚金极小值原理的策略只 比基于动态规划的策略的经济性降低了 0郾 35% . 基于已知工况的策略,仅在历史行驶数据的基 础上进行预测,不能实现准确的控制,从而无法达到 真正意义上的实时优化. 基于优化算法的最优能量 管理策略通常需要建立能够良好地反映系统特性的 精确模型,如等效消耗最小策略中的等效系数估计 模型,这使得能量管理策略的建立过程变得十分复 杂;其次,这些最优能量管理策略不能根据实际的工 况进行策略更新迭代,使得控制策略不具有时效性 和拓展性. 针对传统最优能量管理策略在这些方面 存在的问题,本文以插电式燃料电池电动汽车(PF鄄 CEV)为研究对象,提出了一种基于增强学习( rein鄄 forcement learning, RL) 算法的插电式燃料电池电 动汽车能量管理策略. 本文的内容结构如下,在第一节,根据插电式燃 料电池汽车动力系统特点,建立包括整车、燃料电池 系统和锂离子电池等关键部件的模型;第二节描述 了整车能量管理的优化控制模型;第三节描述了状 态转移概率矩阵的计算以及该能量管理策略的构建 和实现方法;第四节给出了该策略与其他策略的仿 真及硬件在环试验结果对比和分析;最后给出了 结论. 1 插电式燃料电池汽车动力系统建模 1郾 1 车辆模型 本文所研究的插电式燃料电池汽车的动力系统 结构为并联型结构,主要由驱动系统、锂离子动力电 池、燃料电池系统及相应的控制器组成,如图 1 所 示. 燃料电池系统通过 DC / DC(直流转直流)变换 器连接到直流母线,锂离子电池组直接连接到母线 以维持直流线路电压,相应的整车与关键部件参数 ·1333·
.1334. 工程科学学报.第41卷,第10期 如表1所示. 考虑到整车各部件的传动效率,车辆实际电力 车控制器 需求功率P可以表示为: (P=Parive/marive 多能源总成 P=)(a盘0+f0+f0+fo) 7lie=刀m*7oyac*7mar (1) 其中,P为实际电力需求功率,)为整车的驱动效 料 气储 率,P为总牵引功率,u是车速,m,是车辆的整车 质量,F是车辆行驶时的空气阻力,Fu是滚动摩 动力电池 图1燃料电池汽车动力系统结构 擦阻力,F是在非水平道路上行驶时的坡道阻力, Fig.1 Structure of the fuel cell vehicle driving system nm为机械传动系统效率,ICc为DC/AC逆变器效 表1整车基本参数 Table 1 Basic parameters for vehicle 整备质量/ 轴距/ 滚动半径/空气阻力迎风面积/传动系 驱动电机最 燃料电池系统 动力电池容 主减速比 kg mm mm 系数 m2 效率 大功率/kW 最大功率/kW 量/(Ah) 1400 1700 301 0.284 1.97 0.95 4.226 75 65 40 率,刀为电机效率.该驱动系统工作模式可以分 1.3 锂离子电池组模型 为纯电模式和混合驱动模式,纯电模式下,整车需求 电池荷电状态是电池重要的动态参数,可以通 功率直接由电池提供,混合驱动模式下,由燃料电池 过如下公式计算得到: 和电池共同驱动,两者的输出功率P。m和P之间 SOC=-I ()/Qhau (6) 的功率分配表示为: 其中,I为电池电流,Q为电池容量,电池输出电 P(t)=Pm(t)+P(t) (2) 压U由公式(7)计算得到: 1.2燃料电池模型 (V(SOC)-I(t)R (SOC)(>0) 燃料电池系统的输出功率Pm等于燃料电池 U.)=V(s0c)-1()-R(s0C)(a<o) 系统功率P。与附件消耗功率Pm之差,而燃料电 (7) 池系统功率等于输出电压U与输出电流1乘积: 其中,V(SOC)为电池开路电压,R.和R分别是电 (Ptem Pte-Pte. 池组放电和充电过程中的内阻.电池组的实际输出 (3) Pre =Url 特性表现为电池的实际输出功率P,可以通过电 燃料电池系统氢气消耗速率(g·s)与燃料电 池的实时电压和电流计算,如公式(8) 池实际工作电流有关[],可以表示为: Pa(t)=Um(t)·lhm(t) mHalse 0≤Pia.i,≤Pi(Lhu>0) (8) rituts=2F+na (4) l0≤PLh≤Pchg_mas(Ia<O) 其中,mh,为氢气摩尔质量,2g~mol-,F为法拉第常 2 燃料电池汽车能量管理控制模型 数,26.801 A.h-mol-1,b,为燃料电池附件平均氢气 消耗速率,g·s1.燃料电池附件消耗功率P主 以插电式燃料电池动力系统的宏观能源利用角 要指鼓风机消耗功率,可以表示为燃料电池系统功 度来看,整车所需的能量一部分是来自停车充电时 率的函数,拟合公式如(5)所示,拟合值为 消耗的电网电能,一部分是来自燃料电池氢气消耗 能量.因此,基于增强学习的能量管理策略要优化 0.915. Pteaux aPi +bPi+cPe+156 的价值函数J是氢气消耗和电池电量可持续性之间 的均衡,该策略中的性能优化目标函数定义为: a=3.46×10-1 (5) b=-1.66×10-6 J=[mH,(t)+a(s0c(t)-s0C(0)2]d c=5.01×10-2 (9)
工程科学学报,第 41 卷,第 10 期 如表 1 所示. 图 1 燃料电池汽车动力系统结构 Fig. 1 Structure of the fuel cell vehicle driving system 考虑到整车各部件的传动效率,车辆实际电力 需求功率 Pm可以表示为: Pm =Pdrive / 浊drive Pdrive =v(t) ( mv d dt v(t) +Faero(t) +Froll(t) +Fgra(t) ) 浊drive =浊tra·浊DC/ AC·浊 ì î í ï ï ï ï motor (1) 其中,Pm为实际电力需求功率,浊drive为整车的驱动效 率,Pdrive为总牵引功率,v 是车速,mv是车辆的整车 质量,Faero是车辆行驶时的空气阻力,Froll是滚动摩 擦阻力,Fgra是在非水平道路上行驶时的坡道阻力, 浊tra为机械传动系统效率,浊DC/ AC为 DC / AC 逆变器效 表 1 整车基本参数 Table 1 Basic parameters for vehicle 整备质量/ kg 轴距/ mm 滚动半径/ mm 空气阻力 系数 迎风面积/ m 2 传动系 效率 主减速比 驱动电机最 大功率/ kW 燃料电池系统 最大功率/ kW 动力电池容 量/ (A·h) 1400 1700 301 0郾 284 1郾 97 0郾 95 4郾 226 75 65 40 率,浊motor为电机效率. 该驱动系统工作模式可以分 为纯电模式和混合驱动模式,纯电模式下,整车需求 功率直接由电池提供,混合驱动模式下,由燃料电池 和电池共同驱动,两者的输出功率 Pfc_req和 Pbat之间 的功率分配表示为: Pm (t) = Pfc_req (t) + Pbat(t) (2) 1郾 2 燃料电池模型 燃料电池系统的输出功率 Pfc_req等于燃料电池 系统功率 Pfc与附件消耗功率 Pfc_aux之差,而燃料电 池系统功率等于输出电压 Ufc与输出电流 Ifc乘积: Pfc_req = Pfc - Pfc,aux Pfc = Ufc I { fc (3) 燃料电池系统氢气消耗速率( g·s - 1 )与燃料电 池实际工作电流有关[18] ,可以表示为: m · H2 = mH2 Ifc 2F + bH2 (4) 其中,mH2为氢气摩尔质量,2 g·mol - 1 ,F 为法拉第常 数,26郾 801 A·h·mol - 1 ,bH2为燃料电池附件平均氢气 消耗速率,g·s - 1 . 燃料电池附件消耗功率 Pfc_aux 主 要指鼓风机消耗功率,可以表示为燃料电池系统功 率的 函 数, 拟 合 公 式 如 ( 5 ) 所 示, 拟 合 R 2 值 为 0郾 915. Pfc_aux = aP 3 fc + bP 2 fc + cPfc + 156 a = 3郾 46 伊 10 - 11 b = - 1郾 66 伊 10 - 6 c = 5郾 01 伊 10 ì î í ï ïï ï ïï - 2 (5) 1郾 3 锂离子电池组模型 电池荷电状态是电池重要的动态参数,可以通 过如下公式计算得到: SOC 伊 = - Ibat(t) / Qbat (6) 其中,Ibat为电池电流,Qbat为电池容量,电池输出电 压 Ubat由公式(7)计算得到: Ubat(t) = V(SOC) - Ibat(t)·Rdis(SOC) (Ibat > 0) V(SOC) - Ibat(t)·Rchg(SOC) (I { bat < 0) (7) 其中,V(SOC)为电池开路电压,Rdis和 Rchg分别是电 池组放电和充电过程中的内阻. 电池组的实际输出 特性表现为电池的实际输出功率 Pbat,可以通过电 池的实时电压和电流计算,如公式(8). Pbat(t) = Ubat(t)·Ibat(t) 0臆Pbat_dis臆Pdis_max (Ibat > 0) 0臆Pbat_chg臆Pchg_max (Ibat < 0 ì î í ïï ïï ) (8) 2 燃料电池汽车能量管理控制模型 以插电式燃料电池动力系统的宏观能源利用角 度来看,整车所需的能量一部分是来自停车充电时 消耗的电网电能,一部分是来自燃料电池氢气消耗 能量. 因此,基于增强学习的能量管理策略要优化 的价值函数 J 是氢气消耗和电池电量可持续性之间 的均衡,该策略中的性能优化目标函数定义为: J = 乙 T 0 [m · H2 (t) + 琢 (SOC(t) - SOC(0)) 2 ]dt (9) ·1334·
林歆悠等:基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 ·1335. 目标函数J包括整个时间跨度内总的氢气消耗 下由功率P转移到P的转移概率,N表示从P转移 和动力电池S0C惩罚函数,其中,m,为燃料电池实 到P发生的次数,N,表示状态P产生的总次数.图 际氢气消耗速率,α为S0C惩罚权重因子,T为总的 3给出了基于城市行驶工况计算状态转移概率矩阵 运行时间,则实际优化问题可以描述为: 的过程 a()()小=[m[u()]+ 100 a(S0C(t)-S0C(0))2]d Pn(t)=Pem(t)+Pm(t) 200 400600800100012001400 时间s u(t)=P(t) x(t)=[P(t),SOC(t),v(t)] P。aWa (10) 50 其中:u(t)为控制变量,定义为电池输出功率P oe yuk Mhyywimumww-hi (t);x(t)为状态变量,定义为整车需求功率P(t)、 -5 0 200 400 600 8001000 1200 1400 电池S0C(t)和车速v(t). 时间s 最大似然估计 3基于增强学习算法的能量管理策略 所采用的增强学习算法是一种基于值迭代运算 0.2 -200 的Q_learning算法,其主要思想就是将状态与动作 状态转移概率矩阵 4》 构建成Q-table来存储价值量Q值,然后根据Q值 当崩功案460-200一 下一时刻功率kW 20 来选取动作以获得较大的收益.该算法包括两个实 图3状态转移概率的计算过程 体,智能体和环境,两个实体的交互过程如图2所 Fig.3 Calculation process of the state transfer probability 示,其中L为增强学习算法,,为t时刻下的奖励 3.2增强学习控制策略的建立 反馈,s表示t时刻下的状态,a,为t时刻下的执行 根据增强学习算法,将所研究的插电式燃料电 动作. 池电动汽车能量管理问题描述为五元组{S,A,{P}, 智能体: y,R},其中,S为由需求功率P(t)、S0C(t)和车速 RL控制策略 (t)组成的有限数量状态集,A为电池的输出功率 豪 P(t)表示的动作集,{P}为状态s下采用动作a的 sP (n)SOC(D.00) a:Pl 状态转移概率分布,y为学习过程中的折扣因子,α 环境:PFCEV 为电池荷电状态的调节因子,R为以整车的性能优 化价值函数表示的回报函数集: 图2智能体和环境之间的交互过程 s,∈S={P(t),v(t),S0C(t)1Pnm∈[-30,50], Fig.2 Iterative interaction between the agent and environment S0Ce[0.1,0.9],v∈[0,120]} 3.1状态转移概率矩阵 a,∈A={Pa(t)lPbm∈[-20,40]} Q_learning算法是以网格矩阵作为动作值函数 b,∈R={-mH,(s,a,)-a(S0C(t)-S0C(0))2} 载体的,因此,采用该算法的一个基本步骤是对需求 (12) 功率进行建模.根据文献[19]知,需求功率变化可 基于增强学习的控制策略是一个从状态到动作 被视为平稳马尔可夫过程,需求功率状态转移概率 的映射函数π:S→A,也就是在给定状态s下,根据 矩阵可以通过最大似然估计利用公式(11)计算: 策略,也就确定下一步的动作a=π(s).对每一个 Pm={P1,P2,P3,…,P,…,P…Pn} 状态s,定义值函数为累积折扣回报的数学期望: P:=P(P.(t+1)=PIP.(t)=P:)=N/N r()=(空) (13) =1 其中,y为折扣因子,表示随时间的推移回报的折扣 (11) 系数,对于一个固定的策略,E表示累计的奖励反馈 其中,将需求功率分为n个状态,P表示在某一车速 量,反馈价值函数广满足贝尔曼方程(Bellman
林歆悠等: 基于增强学习算法的插电式燃料电池电动汽车能量管理控制策略 目标函数 J 包括整个时间跨度内总的氢气消耗 和动力电池 SOC 惩罚函数,其中,m · H2为燃料电池实 际氢气消耗速率,琢 为 SOC 惩罚权重因子,T 为总的 运行时间,则实际优化问题可以描述为: J[u(t),x(t),t] = 乙 T 0 [m · H2 [u(t),x(t)] + 琢 (SOC(t) - SOC(0)) 2 ]dt Pm (t) = Pfc_req (t) + Pbat(t) u(t) = Pbat(t) x(t) = [Pm (t),SOC(t),v(t ì î í ï ï ïï ï ï ïï )] (10) 其中:u ( t) 为控制变量,定义为电池输出功率 Pb (t);x(t)为状态变量,定义为整车需求功率 Pm (t)、 电池 SOC(t)和车速 v(t). 3 基于增强学习算法的能量管理策略 所采用的增强学习算法是一种基于值迭代运算 的 Q_learning 算法,其主要思想就是将状态与动作 构建成 Q鄄鄄table 来存储价值量 Q 值,然后根据 Q 值 来选取动作以获得较大的收益. 该算法包括两个实 体,智能体和环境,两个实体的交互过程如图 2 所 示,其中 RL 为增强学习算法,rt为 t 时刻下的奖励 反馈,st表示 t 时刻下的状态,at为 t 时刻下的执行 动作. 图 2 智能体和环境之间的交互过程 Fig. 2 Iterative interaction between the agent and environment 3郾 1 状态转移概率矩阵 Q_learning 算法是以网格矩阵作为动作值函数 载体的,因此,采用该算法的一个基本步骤是对需求 功率进行建模. 根据文献[19]知,需求功率变化可 被视为平稳马尔可夫过程,需求功率状态转移概率 矩阵可以通过最大似然估计利用公式(11)计算: Pm = {P1 ,P2 ,P3 ,…,Pi,…,Pj…Pn } Pij = P(Pm (t + 1) = Pj | Pm (t) = Pi) = Nij / Ni Ni = 移 n j = 1 N ì î í ï ï ï ï ij (11) 其中,将需求功率分为 n 个状态,Pij表示在某一车速 下由功率 Pi转移到 Pj的转移概率,Nij表示从 Pi转移 到 Pj发生的次数,Ni表示状态 Pi产生的总次数. 图 3 给出了基于城市行驶工况计算状态转移概率矩阵 的过程. 图 3 状态转移概率的计算过程 Fig. 3 Calculation process of the state transfer probability 3郾 2 增强学习控制策略的建立 根据增强学习算法,将所研究的插电式燃料电 池电动汽车能量管理问题描述为五元组{S,A,{P}, 酌,R},其中,S 为由需求功率 Pm (t)、SOC(t)和车速 v(t)组成的有限数量状态集,A 为电池的输出功率 Pb (t)表示的动作集,{P}为状态 s 下采用动作 a 的 状态转移概率分布,酌 为学习过程中的折扣因子,琢 为电池荷电状态的调节因子,R 为以整车的性能优 化价值函数表示的回报函数集: st沂S = {Pm (t),v(t),SOC(t) | Pm沂[ - 30,50], SOC沂[0郾 1,0郾 9],v沂[0,120]} at沂A = {Pbat(t) | Pbat沂[ - 20,40]} rt沂R = { - m · H2 (st,at) - 琢 (SOC(t) - SOC(0)) 2 ì î í ï ïï ï ïï } (12) 基于增强学习的控制策略是一个从状态到动作 的映射函数 仔:S寅A,也就是在给定状态 s 下,根据 策略,也就确定下一步的动作 a = 仔( s). 对每一个 状态 s,定义值函数为累积折扣回报的数学期望: V 仔 (s) = E ( 移 +肄 t = 0 酌 t rt + 1 ) (13) 其中,酌 为折扣因子,表示随时间的推移回报的折扣 系数,对于一个固定的策略,E 表示累计的奖励反馈 量,反 馈 价 值 函 数 V 仔 满 足 贝 尔 曼 方 程 ( Bellman ·1335·
.1336· 工程科学学报.第41卷,第10期 equations): 3.3增强学习能量管理控制策略的求解 严(s)=r(s)+y∑P(s')(s')(14) 基于增强学习的控制策略就是通过基于值迭代 的Q_learning算法,求解给定离散状态和动作空间 其中,s'表示状态s执行动作π(s)后的下一个可能 下的最优值函数,通过多次迭代得到最优控制策略, 状态,其服从P分布.上式有两部分组成:即时 其实现流程如图4所示.根据历史工况数据可以求 回报R(s)及未来累积折扣回报期望E,~Pe[V 得需求功率状态转移矩阵P,根据性能优化价值函 (s)].求解V的目的是找到一个当前状态s下最 数可以求得回报函数矩阵R,选择一定的折扣因子 优的行动策略π(s),定义最优的值函数为: y和迭代次数N,将四元组{P,R,Y,N}输入马尔 V(s)=maxV(s) (15) 科夫决策过程工具箱求解得到最优价值函数和对应 其贝尔曼方程形式为: 的控制策略 r(s)=()+yAP.(s)r~()16) 历史工况数据 表示为增强学习中的Q函数形式为: 状态变量和控制变量离散化 (V(s)=maxQ(s,a) eA (17) 计算状态转移 计算离散状态和动作 Q(s,a)=r(s)+yp(s')V(s') 概率矩阵P 空间下的回报函数矩阵R 其中,Q(s,a)表示在s状态下执行动作a作为第一 折扣 MDP工具箱 迭代 个动作时的最大累计折扣回报.通过求解最优值函 因子y 次数N 数来确定最优控制策略: 控制策略 m(s)=agma(ΣP(s')r'(s))(18) 图4基于增强学习的控制策略求解过程 对于值迭代的Q_learning算法而言,在给出离 Fig.4 Process of solving the control strategy based on RL 散状态和动作空间之后,对应于状态s和动作a的 图5给出在城市行驶工况,选择折扣因子为 Q值和最优Q值可以递归定义为: 0.9,迭代次数为10000时,求解过程的百步均方差, Qsa)=s.e)+yP.(0.a19) 可以看出,随着迭代次数的增加,Q值的百步均方差 Q'so)=o)+ygP.(m0'a 逐渐减小并趋近于0,这表明Q值逐渐收敛于某一 定值,验证了该算法的收敛性.如图6给出了车速 (20) 为30kmh-J,电池S0C为0.9时,通过Q_learning 最终,Q_learning算法中Q值的迭代更新规则 算法求解得到的状态值函数最优值以及迭代后的Q 可以表示为: 值,可以看出迭代后的Q值逐渐收敛于状态值函数 Q(s,a)+Q(s,a)+n(r+ymaxQ(s',a')-Q(s,a)) 的最优值,这表明了增强学习算法的有效性 (21) 200 相对较大 -g=10 km.h 其中,7是学习率,η∈[0,1],学习率越大,收敛速 9150H -r=20km·h1 --=30km-h- 度越快,但会导致过拟合问题,本文中,取值为0.1. 100 50 趋近于0 表2给出了Q-learning算法在Matlab中的计算流 程,基于Q_learning的最优控制策略通过多次迭代 20 40 60 100 迭代次数x100 得到. 图5Q_leaming学习选代中的百步均方差 表2Q--learning算法在Matlab中的计算流程 Fig.5 100-step mean square error in Q_learning iteration Table 2 Computing process of Q-learning algorithms in Matlab 初始化Q(s,a),s∈S,a∈A(s),任意Q(s,a)=0 4 仿真与硬件在环试验结果分析 初始化状态S(Pm(t),SOC(t),() 重复(对每一次迭代中的每一步): 为了验证基于增强学习的能量管理策略的可行 根据状态S选取一个动作A(P(:)执行 性和有效性,首先通过Matlab/Simulink建立应用于 执行完A动作后观察回报值R和新的状态S” Q(s,a)+(s,a)+nr+ymaxe(s',a')-0(s,a)) 能量管理策略的整车仿真模型进行仿真试验,然后 S+-S' 通过硬件在环试验,采用不同的能量管理策略试验 循环直到S终止 验证
工程科学学报,第 41 卷,第 10 期 equations): V 仔 (s) = r(s) + 酌 移 +肄 s忆沂S Ps仔(s) (s忆)V 仔 (s忆) (14) 其中,s忆表示状态 s 执行动作 仔( s)后的下一个可能 状态,其服从 Ps仔(s) 分布. 上式有两部分组成:即时 回报 R(s)及未来累积折扣回报期望 Es忆 ~ Ps仔(s) [V 仔 (s忆)]. 求解 V 仔的目的是找到一个当前状态 s 下最 优的行动策略 仔(s),定义最优的值函数为: V * (s) = max 仔 V 仔 (s) (15) 其贝尔曼方程形式为: V * (s) = r(s) + max a沂A 酌 移s忆沂S Psa (s忆)V * (s忆) (16) 表示为增强学习中的 Q 函数形式为: V * (s) = max a沂A Q(s,a) Q(s,a) = r(s) + 酌Psa (s忆)V * (s忆 { ) (17) 其中,Q(s,a)表示在 s 状态下执行动作 a 作为第一 个动作时的最大累计折扣回报. 通过求解最优值函 数来确定最优控制策略: 仔 * (s) = arg max a沂 ( A 移s忆沂S Psa (s忆)V * (s忆) ) (18) 对于值迭代的 Q_learning 算法而言,在给出离 散状态和动作空间之后,对应于状态 s 和动作 a 的 Q 值和最优 Q 值可以递归定义为: Q(s,a) = r(s,a) + 酌 移s忆沂S Psa (s忆)Q(s忆,a忆)(19) Q * (s,a) = r(s,a) + 酌 移s忆沂S Psa (s忆)max a忆 Q * (s忆,a忆) (20) 最终,Q_learning 算法中 Q 值的迭代更新规则 可以表示为: Q(s,a)饮Q(s,a) + 浊(r + 酌 max a忆 Q(s忆,a忆) -Q(s,a)) (21) 其中,浊 是学习率,浊沂[0,1],学习率越大,收敛速 度越快,但会导致过拟合问题,本文中,取值为 0郾 1. 表 2 给出了 Q鄄鄄 learning 算法在 Matlab 中的计算流 程,基于 Q_learning 的最优控制策略通过多次迭代 得到. 表 2 Q鄄鄄learning 算法在 Matlab 中的计算流程 Table 2 Computing process of Q鄄鄄learning algorithms in Matlab 初始化 Q(s,a),s沂S,a沂A(s),任意 Q(s,a) = 0 初始化状态 S(Pm (t),SOC(t),v(t)) 重复(对每一次迭代中的每一步): 根据状态 S 选取一个动作 A(Pb(t))执行 执行完 A 动作后观察回报值 R 和新的状态 S忆 Q(s,a)饮Q(s,a) + 浊(r + 酌 max a忆 Q(s忆,a忆) - Q(s,a)) S饮S忆 循环直到 S 终止 3郾 3 增强学习能量管理控制策略的求解 基于增强学习的控制策略就是通过基于值迭代 的 Q_learning 算法,求解给定离散状态和动作空间 下的最优值函数,通过多次迭代得到最优控制策略, 其实现流程如图 4 所示. 根据历史工况数据可以求 得需求功率状态转移矩阵 P,根据性能优化价值函 数可以求得回报函数矩阵 R,选择一定的折扣因子 酌 和迭代次数 N,将四元组{P, R, 酌, N}输入马尔 科夫决策过程工具箱求解得到最优价值函数和对应 的控制策略. 图 4 基于增强学习的控制策略求解过程 Fig. 4 Process of solving the control strategy based on RL 图 5 给出在城市行驶工况,选择折扣因子为 0郾 9,迭代次数为 10000 时,求解过程的百步均方差, 可以看出,随着迭代次数的增加,Q 值的百步均方差 逐渐减小并趋近于 0,这表明 Q 值逐渐收敛于某一 定值,验证了该算法的收敛性. 如图 6 给出了车速 为 30 km·h - 1 ,电池 SOC 为 0郾 9 时,通过 Q_learning 算法求解得到的状态值函数最优值以及迭代后的 Q 值,可以看出迭代后的 Q 值逐渐收敛于状态值函数 的最优值,这表明了增强学习算法的有效性. 图 5 Q_learning 学习迭代中的百步均方差 Fig. 5 100鄄step mean square error in Q_learning iteration 4 仿真与硬件在环试验结果分析 为了验证基于增强学习的能量管理策略的可行 性和有效性,首先通过 Matlab / Simulink 建立应用于 能量管理策略的整车仿真模型进行仿真试验,然后 通过硬件在环试验,采用不同的能量管理策略试验 验证. ·1336·