第16卷第3期 智能系统学报 Vol.16 No.3 2021年5月 CAAI Transactions on Intelligent Systems May 2021 D0:10.11992tis.202008037 新冠肺炎疫情趋势预测模型 甘雨,吴雨,王建勇 (四川大学计算机学院,四川成都610065) 摘要:2019年新型冠状病毒肺炎(corona virus disease2019,COVID-19)的爆发对人们的健康和生活造成了极大的危 害和影响。预测疫情的发展趋势可帮助人们提前制定应对措施。SEI模型是经典的传染病模型之一,由于该模 型中病毒传染率为常数,难以对新冠肺炎传播情况进行准确建模并完成疫情趋势预测。针对此问题,本文提出基 于长短期记忆网络(long short-term memory,LSTM)的病毒传染率预测方法,并将其与SEIR模型结合,建立新冠肺 炎疫情趋势预测模型(LSTM-SEIR network,LS-Net)。为了验证本文提出的方法,收集了国内多个省市官方公布的 疫情数据进行实验。实验结果表明,本文提出的LS-Nt可对疫情发展趋势进行有效预测,并优于传统SEIR模型。 关键词:新型冠状病毒;SEI模型;长短期记忆网络;智能系统;预测模型;实时预测;神经网络;深度学习 中图分类号:TP391.4文献标志码:A文章编号:1673-4785(2021)03-0528-09 中文引用格式:甘雨,吴雨,王建勇.新冠肺炎疫情趋势预测模型.智能系统学报,2021,16(3):528-536. 英文引用格式:GAN Yu,.WUYu,WANG Jianyong.Epidemics trend prediction model of COVID-lJ.CAAI transactions on in telligent systems,2021,16(3):528-536. Epidemics trend prediction model of COVID-19 GAN Yu,WU Yu,WANG Jianyong (College of Computer Science,Sichuan University,Chengdu 610065,China) Abstract:The outbreak of coronavirus disease 2019(COVID-19)has threatened and brought a serious impact on the health and daily life of people.If people are warned beforehand about the speed of the disease,they are able to take ne- cessary preventive measures.As one of the most classical epidemic models,the SEIR model can hardly model the spread of COVID-19 and predict its trend because the rate of transmission is constant,which is one of the required para- meters of the SEIR model.Aiming at this problem,a dynamic prediction method of the rate of transmission is derived based on long short-term memory(LSTM).An LSTM-SEIR network(LS-Net)is then proposed based on the LSTM and SEIR models to predict the trend of the COVID-19 epidemic.To validate the LS-Net,official epidemiological data re- leased from different domestic areas are collected.The experimental results show that LS-Net can predict the spread of COVID-19 validly and with better performance compared with that of the traditional SEIR model. Keywords:COVID-19;SEIR model;LSTM;intelligent systems;prediction model;real time prediction;neural net- works;deep learning 2019年12月,新型冠状病毒肺炎疫情 2020年1月31日,世界卫生组织宣布C0VID- (corona virus disease2019,COVID-19)在中国湖北 19疫情构成“国际关注的突发公共卫生事件”,后 省武汉市爆发。新型冠状病毒传染速度极快,短 于当地时间2020年3月11日宣布C0VD-19疫 时间内即造成多人感染。为控制疫情,武汉市于 情成为全球大流行。一时之间,疫情的发展趋势 2020年1月23日实施封城管理,此后全国多个省 成为全国乃至世界人民共同关注的问题。通过对 市相继启动突发公共卫生事件【级响应机制。 疫情发展趋势的有效预测可对人们提前制定应对 措施提供帮助。从疫情爆发初期开始,世界范围 收稿日期:2020-08-31. 基金项目:国家自然科学基金青年基金项目(61906127). 内就有诸多学者对疫情情况进行了预测。 通信作者:王建勇.E-mail:wWy@scu.edu.cn SR模型和SEIR模型s刀都是常用的传染
DOI: 10.11992/tis.202008037 新冠肺炎疫情趋势预测模型 甘雨,吴雨,王建勇 (四川大学 计算机学院,四川 成都 610065) 摘 要:2019 年新型冠状病毒肺炎 (corona virus disease 2019,COVID-19) 的爆发对人们的健康和生活造成了极大的危 害和影响。预测疫情的发展趋势可帮助人们提前制定应对措施。SEIR 模型是经典的传染病模型之一,由于该模 型中病毒传染率为常数,难以对新冠肺炎传播情况进行准确建模并完成疫情趋势预测。针对此问题,本文提出基 于长短期记忆网络 (long short-term memory,LSTM) 的病毒传染率预测方法,并将其与 SEIR 模型结合,建立新冠肺 炎疫情趋势预测模型 (LSTM-SEIR network, LS-Net)。为了验证本文提出的方法,收集了国内多个省市官方公布的 疫情数据进行实验。实验结果表明,本文提出的 LS-Net 可对疫情发展趋势进行有效预测,并优于传统 SEIR 模型。 关键词:新型冠状病毒;SEIR 模型;长短期记忆网络;智能系统;预测模型;实时预测;神经网络;深度学习 中图分类号:TP391.4 文献标志码:A 文章编号:1673−4785(2021)03−0528−09 中文引用格式:甘雨, 吴雨, 王建勇. 新冠肺炎疫情趋势预测模型 [J]. 智能系统学报, 2021, 16(3): 528–536. 英文引用格式:GAN Yu, WU Yu, WANG Jianyong. Epidemics trend prediction model of COVID-19[J]. CAAI transactions on intelligent systems, 2021, 16(3): 528–536. Epidemics trend prediction model of COVID-19 GAN Yu,WU Yu,WANG Jianyong (College of Computer Science, Sichuan University, Chengdu 610065, China) Abstract: The outbreak of coronavirus disease 2019 (COVID-19) has threatened and brought a serious impact on the health and daily life of people. If people are warned beforehand about the speed of the disease, they are able to take necessary preventive measures. As one of the most classical epidemic models, the SEIR model can hardly model the spread of COVID-19 and predict its trend because the rate of transmission is constant, which is one of the required parameters of the SEIR model. Aiming at this problem, a dynamic prediction method of the rate of transmission is derived based on long short-term memory (LSTM). An LSTM-SEIR network (LS-Net) is then proposed based on the LSTM and SEIR models to predict the trend of the COVID-19 epidemic. To validate the LS-Net, official epidemiological data released from different domestic areas are collected. The experimental results show that LS-Net can predict the spread of COVID-19 validly and with better performance compared with that of the traditional SEIR model. Keywords: COVID-19; SEIR model; LSTM; intelligent systems; prediction model; real time prediction; neural networks; deep learning 201 9 年 1 2 月,新型冠状病毒肺炎疫 情 (corona virus disease 2019, COVID-19) 在中国湖北 省武汉市爆发。新型冠状病毒传染速度极快,短 时间内即造成多人感染。为控制疫情,武汉市于 2020 年 1 月 23 日实施封城管理,此后全国多个省 市相继启动突发公共卫生事件Ⅰ级响应机制。 2020 年 1 月 31 日,世界卫生组织宣布 COVID- 19 疫情构成“国际关注的突发公共卫生事件”,后 于当地时间 2020 年 3 月 11 日宣布 COVID-19 疫 情成为全球大流行。一时之间,疫情的发展趋势 成为全国乃至世界人民共同关注的问题。通过对 疫情发展趋势的有效预测可对人们提前制定应对 措施提供帮助。从疫情爆发初期开始,世界范围 内就有诸多学者对疫情情况进行了预测[1-3]。 SIR 模型[4-5] 和 SEIR 模型[6-7] 都是常用的传染 收稿日期:2020−08−31. 基金项目:国家自然科学基金青年基金项目 (61906127). 通信作者:王建勇. E-mail:wjy@scu.edu.cn. 第 16 卷第 3 期 智 能 系 统 学 报 Vol.16 No.3 2021 年 5 月 CAAI Transactions on Intelligent Systems May 2021
第3期 甘雨,等:新冠肺炎疫情趋势预测模型 ·529· 病模型,被用来对传染病传播情况进行模拟和预 1 基于传统SEIR模型的疫情趋势预 测。文献[8]使用SEIR模型对武汉当时的疫情规 测模型 模以及武汉和全国其余地区的疫情峰值进行了预 测。文献[9]考虑到人口的流动情况,对SEIR模 1.1传染病传播模型一SEIR 型进行改进,使用改进后的模型对国内疫情趋势 SER模型是经典的传染病模型,它将人群分 进行预测。文献[10]使用基于年龄的SEIR模型 为4类:易感者(susceptible),健康但有可能感染 对美国的疫情感染人数和死亡人数进行了预测。 病毒的人,总人数为S;潜伏者(exposed),已感染 传统SIR模型和SEIR模型的局限性在于模型参 病毒但仍未出现病症的人,总人数为E:感染者 数都是常数,无法随着现实世界中真实情况的变 (infected),已感染病毒并出现病症的确诊患者,总 化而改变。在以往的工作中,模型参数的计算通 人数为L;移除者(removed),感染病毒后因病死亡 常需要人为划分时间段,使用不同时间段的数据 或成功治愈的人,总人数为R。在COVID-19疫 进行分段计算,以实现动态预测。针对此问题, 情中,SEIR模型中4类人群的转化关系如图1所 文献]基于启发式算法回,对SER模型中的参 示,图中,B:为潜伏者将病毒传染给易感者的概 数不断进行随机采样并通过均方根误差最小的约 率,B2为感染者将病毒传染给易感者的概率,α为 束原则,获得参数的最优解,从而对武汉的疫情 潜伏者转化为感染者的概率,y为感染者转化为 拐点进行预测。文献[13]则在SIR模型的基础 移除者的概率。SER的动力学方程为 上,将模型与机器学习中的极限学习机]相结 ds biSE b2SI dt N 合,提出了极限R模型,将疫情发展趋势预测模 N dE bSE b2SI 型的构建转化为对模型参数预测模型的构建,对 dt N N -aE 全国疫情趋势进行了预测。 (1) d/ =aE-gl 近年来随着深度学习的不断发展,其以优秀 drt dR 的实验性能在多个领域中脱颖而出,包括计算机 =g/ 视觉领域1s1刃、自然语言处理领域18-201和语音识 别领域2121等。在时序预测问题中,最常见的神 式中:1为时间步长;N=S+E++R为人群总数。 经网络是循环神经网络4.2((recurrent neural net- B wok,RNN)。RNN可学习到历史输人与当前输入 的关联信息,从而进行时序预测。但当时间序列 过长时,传统RNN容易出现梯度消失现象,无法 处理具有长期依赖关系的问题。为解决这一问 题,出现了长短期记忆网络26-2((long short-term memory network,LSTM)。在此次疫情中,疫情的 变化和发展会受到前期各项措施的影响,因此疫 图1SEIR模型 Fig.1 SEIR model 情趋势预测可看作具有长期依赖关系的时序预测 问题。文献[11]除使用改进后的SEIR模型之 1.2 病毒传染率B1、B2的计算方法 外,也使用了LSTM对疫情的发展趋势进行模拟 根据文献[11],B,和B2由式(2)计算得到: 和预测。 B1=kib (2) 本文将疫情趋势预测看作一个长期且动态变 B2=kab 化的时序预测问题,受文献[11,13]启发,借助传 式中:k1、k2分别为平均每潜伏者和每感染者每天 统SEIR模型的数学方法与人工智能方法在时序 接触的人数;b为病毒的传播率,可由SR模型计 预测问题上的优越性,从SEIR模型参数入手,针 算得到。SIR模型与SEIR模型类似,其将人群分 为易感者、感染者、移除者3类,在SIR模型中, 对新冠病毒的传播特点,提出了基于LSTM的病 病毒传染初期由于感染人数较少,所以N≈S,则 毒传染率预测方法,并将其与SEIR模型结合,提 dI BSI 出新冠肺炎疫情趋势预测模型(LSTM-SEIR net- d=N-W≈(B-y1 (3) work,LS-Net)。LS-Net借助LSTM优良的时序信 由式(3)可得: 息学习能力对病毒传染率进行实时预测。最后将 I(i)=exp[kb-y)☑ (4) 实时更新的病毒传染率应用到SEIR模型中,实 由式(4)可计算出b,将其代入式(2)即可计 现对疫情发展趋势的智能动态预测。 算出SEIR模型中的B,和B2
病模型,被用来对传染病传播情况进行模拟和预 测。文献 [8] 使用 SEIR 模型对武汉当时的疫情规 模以及武汉和全国其余地区的疫情峰值进行了预 测。文献 [9] 考虑到人口的流动情况,对 SEIR 模 型进行改进,使用改进后的模型对国内疫情趋势 进行预测。文献 [10] 使用基于年龄的 SEIR 模型 对美国的疫情感染人数和死亡人数进行了预测。 传统 SIR 模型和 SEIR 模型的局限性在于模型参 数都是常数,无法随着现实世界中真实情况的变 化而改变。在以往的工作中,模型参数的计算通 常需要人为划分时间段,使用不同时间段的数据 进行分段计算,以实现动态预测。针对此问题, 文献 [11] 基于启发式算法[12] ,对 SEIR 模型中的参 数不断进行随机采样并通过均方根误差最小的约 束原则,获得参数的最优解,从而对武汉的疫情 拐点进行预测。文献 [13] 则在 SIR 模型的基础 上,将模型与机器学习中的极限学习机[14] 相结 合,提出了极限 IR 模型,将疫情发展趋势预测模 型的构建转化为对模型参数预测模型的构建,对 全国疫情趋势进行了预测。 近年来随着深度学习的不断发展,其以优秀 的实验性能在多个领域中脱颖而出,包括计算机 视觉领域[15-17] 、自然语言处理领域[18-20] 和语音识 别领域[21-23] 等。在时序预测问题中,最常见的神 经网络是循环神经网络[24-25] (recurrent neural network, RNN)。RNN 可学习到历史输入与当前输入 的关联信息,从而进行时序预测。但当时间序列 过长时,传统 RNN 容易出现梯度消失现象,无法 处理具有长期依赖关系的问题。为解决这一问 题,出现了长短期记忆网络[26-27] (long short-term memory network, LSTM)。在此次疫情中,疫情的 变化和发展会受到前期各项措施的影响,因此疫 情趋势预测可看作具有长期依赖关系的时序预测 问题。文献 [11] 除使用改进后的 SEIR 模型之 外,也使用了 LSTM 对疫情的发展趋势进行模拟 和预测。 本文将疫情趋势预测看作一个长期且动态变 化的时序预测问题,受文献 [11, 13] 启发,借助传 统 SEIR 模型的数学方法与人工智能方法在时序 预测问题上的优越性,从 SEIR 模型参数入手,针 对新冠病毒的传播特点,提出了基于 LSTM 的病 毒传染率预测方法,并将其与 SEIR 模型结合,提 出新冠肺炎疫情趋势预测模型 (LSTM-SEIR network, LS-Net)。LS-Net 借助 LSTM 优良的时序信 息学习能力对病毒传染率进行实时预测。最后将 实时更新的病毒传染率应用到 SEIR 模型中,实 现对疫情发展趋势的智能动态预测。 1 基于传统 SEIR 模型的疫情趋势预 测模型 1.1 传染病传播模型−SEIR β1 β2 α γ SEIR 模型是经典的传染病模型,它将人群分 为 4 类:易感者 (susceptible),健康但有可能感染 病毒的人,总人数为 S;潜伏者 (exposed),已感染 病毒但仍未出现病症的人,总人数为 E;感染者 (infected),已感染病毒并出现病症的确诊患者,总 人数为 I;移除者 (removed),感染病毒后因病死亡 或成功治愈的人,总人数为 R。在 COVID-19 疫 情中,SEIR 模型中 4 类人群的转化关系如图 1 所 示,图中, 为潜伏者将病毒传染给易感者的概 率, 为感染者将病毒传染给易感者的概率, 为 潜伏者转化为感染者的概率, 为感染者转化为 移除者的概率。SEIR 的动力学方程为 dS dt = − b1S E N − b2S I N dE dt = b1S E N + b2S I N −aE dI dt = aE −gI dR dt = gI (1) 式中:t 为时间步长;N=S+E+I+R 为人群总数。 β2 β1 S E I R α γ 图 1 SEIR 模型 Fig. 1 SEIR model 1.2 病毒传染率 β1、β2 的计算方法 根据文献 [11],β1 和 β2 由式 (2) 计算得到: { β1 = k1b β2 = k2b (2) k1 k2 b N ≈ S 式中: 、 分别为平均每潜伏者和每感染者每天 接触的人数; 为病毒的传播率,可由 SIR 模型计 算得到。SIR 模型与 SEIR 模型类似,其将人群分 为易感者、感染者、移除者 3 类,在 SIR 模型中, 病毒传染初期由于感染人数较少,所以 , 则 dI dt = βS I N −γI ≈ (β−γ)I (3) 由式 (3) 可得: I(t) = exp[(kb−γ)I] (4) b β1 β2 由式 (4) 可计算出 ,将其代入式 (2) 即可计 算出 SEIR 模型中的 和 。 第 3 期 甘雨,等:新冠肺炎疫情趋势预测模型 ·529·
·530· 智能系统学报 第16卷 在传统SEIR模型中,B,和B2常是由数据统计 情况的问题,本文基于LSTM和SEIR模型提出 得出的常数。而在现实情下,病毒的传染能力很大 LS-Neto 程度上会受到外界的影响,所以B,和B2应是不断变 2.1LS-Net的网络结构与数学模型 化的。且在上述方法中,B,和B2均由SR模型计算 LS-Net的总体结构如图2所示,其包括2个 得出,没有考虑到潜伏期患者的病毒传染情况。 模块:病毒传染率预测模块和疫情趋势预测模 2 新冠肺炎疫情趋势预测模型— 块。病毒传染率预测模块包括LSTM层、全连接 LS-Net 层(fully connection layer,.FC)和非线性变换层,实 现对新冠病毒传染率B,和B,的预测。疫情趋势 针对传统SEIR模型中的病毒传染率无法实 预测模块包括SEIR模型层,实现对新冠疫情趋 现自动动态预测和没有考虑到潜伏期患者的传染 势的预测。 输出 P(E) P() P(R) 疫情 趋势 测 SEIR 模块 传染率 FC (SoftPlus) 块 LSTM 输人 图2 LS-Net总体结构 Fig.2 Framework of the long short-term memory SEIR network 2.11病毒传染率预测模块 出门o。LSTM更新过程如式(⑤)所示: 病毒传染率后期的变化与疫情前期的防控和 (in s(WiX:+ba+Wmh-1+bu) 诊治措施息息相关,因此病毒传染率的预测需要 fi=s(WirX:+bis Whyh:-1+bht) 结合历史信息与当前信息共同分析得出。病毒传 C=s(WiX:+bi+Whch-1+bht) (5) 染率预测模块以LSTM为基础,结合病毒的传播 O:=s(WiaX:+bi+Whoh-1+bho) 规律对传染率进行预测。为更好地学习到时序数 C=ficm1+ic 据间的关联信息,LS-Net使用3天的潜伏期、感 h =o:tanh(c) 染者、移除者数量作为输入。 式中:X,为1时刻的输人。 LSTM可学习并生成包含历史信息与当前信 将h,输出的包含时序信息的特征输入到 息的数据,其包含3类门:输入门、遗忘门、输 FC层。FC层计算过程如式(6)所示:
β1 β2 β1 β2 β1 β2 在传统 SEIR 模型中, 和 常是由数据统计 得出的常数。而在现实情下,病毒的传染能力很大 程度上会受到外界的影响,所以 和 应是不断变 化的。且在上述方法中, 和 均由 SIR 模型计算 得出,没有考虑到潜伏期患者的病毒传染情况。 2 新冠肺炎疫情趋势预测模型− LS-Net 针对传统 SEIR 模型中的病毒传染率无法实 现自动动态预测和没有考虑到潜伏期患者的传染 情况的问题,本文基于 LSTM 和 SEIR 模型提出 LS-Net。 2.1 LS-Net 的网络结构与数学模型 β1 β2 LS-Net 的总体结构如图 2 所示,其包括 2 个 模块:病毒传染率预测模块和疫情趋势预测模 块。病毒传染率预测模块包括 LSTM 层、全连接 层 (fully connection layer,FC) 和非线性变换层,实 现对新冠病毒传染率 和 的预测。疫情趋势 预测模块包括 SEIR 模型层,实现对新冠疫情趋 势的预测。 …… 输入 LSTM 输出 SEIR 疫情 趋势 预测 模块 病 毒 传 染 率 预 测 模 块 FC (SoftPlus) Yt Ct Xt Et It Rt at kt β1t β2t P(Et+1) Et−2 It−2 Rt−2 Et−1 It−1 Rt−1 P(It+1) P(Rt+1) S E I R α γ 图 2 LS-Net 总体结构 Fig. 2 Framework of the long short-term memory SEIR network 2.1.1 病毒传染率预测模块 病毒传染率后期的变化与疫情前期的防控和 诊治措施息息相关,因此病毒传染率的预测需要 结合历史信息与当前信息共同分析得出。病毒传 染率预测模块以 LSTM 为基础,结合病毒的传播 规律对传染率进行预测。为更好地学习到时序数 据间的关联信息,LS-Net 使用 3 天的潜伏期、感 染者、移除者数量作为输入。 it ft LSTM 可学习并生成包含历史信息与当前信 息的数据,其包含 3 类门:输入门 、遗忘门 、输 出门 ot。LSTM 更新过程如式 (5) 所示: it = s(WiiXt +bii +Whiht−1 +bhi) ft = s(Wi f Xt +bi f + Wh f ht−1 +bh f) c˜t = s(Wic˜Xt +bic˜ + Whc˜ht−1 +bhc˜) ot = s(WioXt +bio + Whoht−1 +bho) ct = ftct−1 +itc˜t ht = ot tanh(ct) (5) 式中: Xt 为 t 时刻的输入。 将 ht 输出的包含时序信息的特征输入 到 FC 层。FC 层计算过程如式 (6) 所示: ·530· 智 能 系 统 学 报 第 16 卷
第3期 甘雨,等:新冠肺炎疫情趋势预测模型 ·531· (C,=lg(1+exp(Wch)) 模型训练流程如图3所示。该训练算法见算 a,Ig(1+exp(Wah,)) (6) 法1。 k:Ig(1 +exp(Wih,)) 开始 式中:C、a,、k均为预测t时刻B,和B2的控制参数。 随着政府和社会管控力度以及人们自身防控 a←7、7←i4、epoch.-5000 意识的不断增强,B1、B2会逐渐下滑,且后期B、B2 相较前期会大幅下降。由于确诊患者会被严密地 隔离起来并进行医治,与之接触的医护人员也会 训练次数←-0 采取完备的防护措施,而潜伏期患者相对行动更 加自由,所以实际上确诊患者的病毒传播能力相 训练次数≤epoch 较于潜伏期患者更弱。据此本文为新冠病毒传染 创建了式(7)所示的非线性变换函数,由此计算 得到B,和B2。 输入X的合集X Bi,=C:exp (7 对X内的每一个X,由式(5) B2=kB1 (6)、(7)计算得出B、B 2.12疫情趋势预测模块 该模块由1.1节所述的SEIR模型构成。 由式(8)预测y, SEIR层具有参数S、α和Y,结合病毒传染率预测 模块得到的B,和B2.及输人数据E,、I、R对类数 输出Y,的集合Y 据进行预测。其计算过程为 PS41=S,-BSE_BS山 由式(9)计算Loss N N P(E)=E+B-E N (8) 根据Loss更新网络 P(D1=I:+aE:-yl P(R)1=R:+yl 训练次数++ 式中:P(S)41、P(E)1、P(D4I、P(R)41分别为第1+1 天易感者、潜伏者、感染者和移除者数量的预测值。 结束 2.2模型训练算法 LS-Net训练时使用前3天的数据预测第4天 图3训练算法流程 Fig.3 Training algorithm flow 的数据,并使用平均平方误差(mean square error, 算法1模型训练 MSE)作为损失函数。由于现实中感染者和移除 输入训练集样本X=(X2,…,X,…,X},其 者的数据更易收集,且人们对感染者情况更关 注,本文在训练时给3类数据的MSE分配了不同 中X={E-2,l-2,R-2,E-1,l-1,R-1,E,l,Rl,te[2,T]; 的权重。具体如式(9)所示: 输出模型预测结果Y=Y2,Y,…,Y,其中 Loss =0.1MSEE +0.5MSE,+0.4MSER Yy={E41,4,R4i,t∈[2,T]o MSE-(E-PCE)F 参数epoch:训练的总次数。 I)While训练次数≤epoch do MSE-PU) (9) 2)for each X,∈Xdo 3)由式(5)、(6)(7)计算病毒传染率B,、B2 MSEOy 1 4)由式(8)计算新冠肺炎疫情趋势Y, 5)End for 式中:MSEE、MSE、MSER分别为由潜伏者、感染 6)由式(9)计算L0ss 者、移除者的真实值和预测值计算得到的MSE; 7)根据Loss更新LSTM参数 E、I,、R,为真实值;P(E)、P(I)、PR),为预测值。 9)End while
Ct = lg(1+exp(WCht)) at = lg(1+exp(Waht)) kt = lg(1+exp(Wkht)) (6) Ct at kt 式中: 、 、 均为预测 t 时刻 β1 和 β2 的控制参数。 β1 β2 β1 β2 β1 β2 随着政府和社会管控力度以及人们自身防控 意识的不断增强, 、 会逐渐下滑,且后期 、 相较前期会大幅下降。由于确诊患者会被严密地 隔离起来并进行医治,与之接触的医护人员也会 采取完备的防护措施,而潜伏期患者相对行动更 加自由,所以实际上确诊患者的病毒传播能力相 较于潜伏期患者更弱。据此本文为新冠病毒传染 创建了式 (7) 所示的非线性变换函数,由此计算 得到 和 。 β1t = Ct exp( − 1 at ) β2t = ktβ1t (7) 2.1.2 疫情趋势预测模块 α γ β1t β2t Et It Rt 该模块 由 1 . 1 节所述 的 SEIR 模型构成。 SEIR 层具有参数 S、 和 ,结合病毒传染率预测 模块得到的 和 及输入数据 、 、 对类数 据进行预测。其计算过程为 P(S )t+1 = S t − β1tS tEt N − β2tS tIt N P(E)t+1 = Et + β1tS tEt N + β2tS tIt N −αEt P(I)t+1 = It +αEt −γIt P(R)t+1 = Rt +γIt (8) 式中: P(S )t+1、P(E)t+1、P(I)t+1、P(R)t+1 分别为第 t+1 天易感者、潜伏者、感染者和移除者数量的预测值。 2.2 模型训练算法 LS-Net 训练时使用前 3 天的数据预测第 4 天 的数据,并使用平均平方误差 (mean square error, MSE) 作为损失函数。由于现实中感染者和移除 者的数据更易收集,且人们对感染者情况更关 注,本文在训练时给 3 类数据的 MSE 分配了不同 的权重。具体如式 (9) 所示: Loss = 0.1MSEE +0.5MSEI +0.4MSER MSEE = 1 T ∑T t=1 (Et − P(E)t ) 2 MSEI = 1 T ∑T t=1 (It − P(I)t ) 2 MSER = 1 T ∑T t=1 (Rt − P(R)t ) 2 (9) MSEE MSEI MSER Et It Rt P(E)t P(I)t P(R)t 式中: 、 、 分别为由潜伏者、感染 者、移除者的真实值和预测值计算得到的 MSE; 、 、 为真实值; 、 、 为预测值。 模型训练流程如图 3 所示。该训练算法见算 法 1。 开始 Y N 训练次数←0 训练次数≤epoch 输入 Xt 的合集 X 对 X 内的每一个 Xt , 由式 (5)、 (6)、(7) 计算得出 β1t、β2t 由式 (8) 预测 Yt 输出 Yt 的集合 Y 由式 (9) 计算 Loss 根据 Loss 更新网络 训练次数 ++ 结束 α← 、 、 epoch← 5 000 1 7 γ ← 1 14 图 3 训练算法流程 Fig. 3 Training algorithm flow 算法 1 模型训练 X = {X2,··· ,Xt ,··· ,XT } Xt = {Et−2,It−2,Rt−2,Et−1,It−1,Rt−1,Et ,It ,Rt} t ∈ [2,T] 输入 训练集样本 ,其 中 , ; Y = {Y2,Y3,··· ,Yt} Yt = {Et+1,It+1,Rt+1} t ∈ [2,T] 输出 模型预测结果 ,其中 , 。 参数 epoch:训练的总次数。 1) While 训练次数 ⩽ epoch do 2) for each Xt ∈ X do 3 β1t β2t ) 由式 (5)、(6)、(7) 计算病毒传染率 、 4) 由式 (8) 计算新冠肺炎疫情趋势 Yt 5) End for 6) 由式 (9) 计算 Loss 7) 根据 Loss 更新 LSTM 参数 9)End while 第 3 期 甘雨,等:新冠肺炎疫情趋势预测模型 ·531·
·532· 智能系统学报 第16卷 2.3模型测试算法 6)End while LS-Net测试时同样使用前3天的数据预测第 4天的数据。但由于疫情趋势预测是对疫情在未 3实验及结果 来较长时间段内的发展趋势进行预测,而当下无 为验证LS-Net的效果,本文使用Pytorch深 法获得未来时间下的E、I、R具体数据,因此本文 度学习框架和Python语言搭建预测模型。Py- 将模型的输出与上一组输入中的后2天数据相结 thon版本为3.6。使用云南省、上海市和陕西省 合,组成新的输入数据再次输入到模型中进行计 3个地区的疫情数据创建数据集进行实验并与 算。若对未来n天的疫情趋势进行预测,则测试 传统SEIR模型进行对比。本节将对实验数据 算法流程如图4所示,测试算法见算法2。 集、实验参数设置进行介绍并对实验结果进行 开始 分析。 3.1数据收集及整理 d- 、74 1)数据来源:2019年12月8日一2020年 3月28日全国各省市卫生健康委员会公布的疑 d-0 似病例、确诊病例、治愈和死亡病例(后文简称移 除病例)数据。 d≤n 2)数据选取:LS-Net没有考虑不同地区之间 人员流动的因素,因此选取了武汉实施全面封城 后的2020年1月24日一2020年3月28日的数 输入只包含3天数据的X 据进行实验,以尽量减少人员流动对实验结果带 来的影响。在全国的总体数据中,确诊病例和移 由式()、(6)、(7计算B,、B 除病例大部分来自于湖北省。而早期由于检测手 段跟不上,湖北省存在大量患者不能及时得到确 由式(8)预测Y, 诊和无法对疑似病例进行排查的情况,所以早期 输出Y 全国总体数据与现实情况有较大差距。为此本文 没有使用全国总体数据进行实验,而是从除湖北 将X中的后2天数 省外同时记录有疑似病例、确诊病例和移除病例 据与Y组合为新的X 的省市中挑选了云南省、上海市和陕西省3个地 区的数据进行实验。 d++ 3)数据集准备:早期无法对人群的病毒感染 情况进行排查,还未出现感染症状的潜伏期患者 结束 数据难以被记录,因此,本文使用现存疑似病例 图4测试算法流程 (已出现病毒感染临床症状但还未得到核酸检测 Fig.4 Testing algorithm flow 结果的病例)数作为E,现存确诊病例数作为(现 算法2模型测试 存确诊病例数=累计确诊病例数-累计移除病例 输入测试集初始输入X={X+,X,={E,-1, 数),移除病例数作为R,各地区2019年常住人口 IT-1,RI-1,ET:IT:RT:ET+2,11+2.RT+21o 数作为N。将第1~1+2天的数据作为输人,第 输出模型预测结果Y={Y+,Y+2…,Yd, +3天的数据作为对应标签来进行整理,共得到 其中Y7d={Er+d4,rd41,Rrd4il,de[l,则。 62份数据。 参数d:已测试的天数。 4)数据集划分:将3)得到的数据按训练集规 l)While d≤ndo 模大小的不同分别整理出4个数据集,即Set10 2)由式(5)、(6)、(7)计算病毒传染率B、B2 Set20、Set30、Set40。其中Set10划分规则:前 3)由式(8)计算新冠肺炎疫情趋势Y+ 10份数据作为训练集,后52份数据的标签作为 4)d←-d+1/更新已测试天数 测试集的标签,第11份输入数据作为测试集的初 5)Xid+concat (E+d-2,Ind-2.R+d-2,Ed-1.Id-1. 始输入数据。Set20、Set30、Set40划分规则 R+d-1,Y+d-1)/便新输人数据 同理
2.3 模型测试算法 LS-Net 测试时同样使用前 3 天的数据预测第 4 天的数据。但由于疫情趋势预测是对疫情在未 来较长时间段内的发展趋势进行预测,而当下无 法获得未来时间下的 E、I、R 具体数据,因此本文 将模型的输出与上一组输入中的后 2 天数据相结 合,组成新的输入数据再次输入到模型中进行计 算。若对未来 n 天的疫情趋势进行预测,则测试 算法流程如图 4 所示,测试算法见算法 2。 开始 d←0 输入只包含 3 天数据的 X 输出 Yt 结束 Y N α← 、 1 7 γ ←1 14 d ≤n 由式 (5)、(6)、(7) 计算 β1t、β2t 由式 (8)预测 Yt 将 X 中的后 2 天数 据与 Yt 组合为新的 X d++ 图 4 测试算法流程 Fig. 4 Testing algorithm flow 算法 2 模型测试 X = {XT+1} XT = {ET−1, IT−1,RT−1,ET ,IT ,RT ,ET+2,IT+2,RT+2} 输入 测试集初始输入 , 。 Y = {YT+1,YT+2,··· ,YT+d} YT+d = {ET+d+1,IT+d+1,RT+d+1} d ∈ [1,n] 输出 模型预测结果 , 其中 , 。 参数 d:已测试的天数。 1)While d ⩽ n do 2 β1t+d β2t+d ) 由式 (5)、(6)、(7) 计算病毒传染率 、 3) 由式 (8) 计算新冠肺炎疫情趋势 Yt+d 4) d ← d +1 //更新已测试天数 Xt+d ← concat (Et+d−2, It+d−2, Rt+d−2, Et+d−1, It+d−1, Rt+d−1, Yt+d−1) 5) //更新输入数据 6)End while 3 实验及结果 为验证 LS-Net 的效果,本文使用 Pytorch 深 度学习框架和 Python 语言搭建预测模型。Python 版本为 3.6。使用云南省、上海市和陕西省 3 个地区的疫情数据创建数据集进行实验并与 传统 SEIR 模型进行对比。本节将对实验数据 集、实验参数设置进行介绍并对实验结果进行 分析。 3.1 数据收集及整理 1) 数据来源:2019 年 12 月 8 日—202 0 年 3 月 28 日全国各省市卫生健康委员会公布的疑 似病例、确诊病例、治愈和死亡病例 (后文简称移 除病例) 数据。 2) 数据选取:LS-Net 没有考虑不同地区之间 人员流动的因素,因此选取了武汉实施全面封城 后的 2020 年 1 月 24 日—2020 年 3 月 28 日的数 据进行实验,以尽量减少人员流动对实验结果带 来的影响。在全国的总体数据中,确诊病例和移 除病例大部分来自于湖北省。而早期由于检测手 段跟不上,湖北省存在大量患者不能及时得到确 诊和无法对疑似病例进行排查的情况,所以早期 全国总体数据与现实情况有较大差距。为此本文 没有使用全国总体数据进行实验,而是从除湖北 省外同时记录有疑似病例、确诊病例和移除病例 的省市中挑选了云南省、上海市和陕西省 3 个地 区的数据进行实验。 3) 数据集准备:早期无法对人群的病毒感染 情况进行排查,还未出现感染症状的潜伏期患者 数据难以被记录,因此,本文使用现存疑似病例 (已出现病毒感染临床症状但还未得到核酸检测 结果的病例) 数作为 E,现存确诊病例数作为 I(现 存确诊病例数=累计确诊病例数−累计移除病例 数),移除病例数作为 R,各地区 2019 年常住人口 数作为 N。将第 t~t+2 天的数据作为输入,第 t+3 天的数据作为对应标签来进行整理,共得到 62 份数据。 4) 数据集划分:将 3) 得到的数据按训练集规 模大小的不同分别整理出 4 个数据集,即 Set_10、 Set_20、Set_30、Set_40。其中 Set_10 划分规则: 前 10 份数据作为训练集,后 52 份数据的标签作为 测试集的标签,第 11 份输入数据作为测试集的初 始输入数据。Set_20、Set_30、Set_40 划分规则 同理。 ·532· 智 能 系 统 学 报 第 16 卷