工程科学学报 Chinese Journal of Engineering 基于机器学习的边坡安全稳定性评价及防护措施 武梦婷陈秋松齐冲冲 Slope safety,stability evaluation,and protective measures based on machine learning WU Meng-ting.CHEN Qiu-song.QI Chong-chong 引用本文: 武梦婷,陈秋松,齐冲冲.基于机器学习的边坡安全稳定性评价及防护措施.工程科学学报,2022,442):180-188.doi: 10.13374j.issn2095-9389.2021.06.02.008 WU Meng-ting,CHEN Qiu-song.QI Chong-chong.Slope safety,stability evaluation,and protective measures based on machine learning[J].Chinese Journal of Engineering,2022,44(2):180-188.doi:10.13374/j.issn2095-9389.2021.06.02.008 在线阅读View online::htps:/ldoi.org/10.13374.issn2095-9389.2021.06.02.008 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报.2019,41(3:401 https:/1doi.org10.13374.issn2095-9389.2019.03.014 基于支持向量回归与极限学习机的高炉铁水温度预测 Prediction of blast furnace hot metal temperature based on support vector regression and extreme learning machine 工程科学学报.2021,43(4:569htps:/doi.org10.13374.issn2095-9389.2020.05.28.001 基于监督学习的前列腺MR/TRUS图像分割和配准方法 Prostate MR/TRUS image segmentation and registration methods based on supervised learning 工程科学学报.2020,42(10:1362htps:1doi.org10.13374.issn2095-9389.2019.10.10.006 三维软硬互层边坡的破坏模式与稳定性研究 Numerical analysis of the failure modes and stability of 3D slopes with interbreeding of soft and hard rocks 工程科学学报.2017,392:182 https:oi.org10.13374j.issn2095-9389.2017.02.003 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报.2021,432:179 https::/1doi.org/10.13374.issn2095-9389.2020.07.21.001
基于机器学习的边坡安全稳定性评价及防护措施 武梦婷 陈秋松 齐冲冲 Slope safety, stability evaluation, and protective measures based on machine learning WU Meng-ting, CHEN Qiu-song, QI Chong-chong 引用本文: 武梦婷, 陈秋松, 齐冲冲. 基于机器学习的边坡安全稳定性评价及防护措施[J]. 工程科学学报, 2022, 44(2): 180-188. doi: 10.13374/j.issn2095-9389.2021.06.02.008 WU Meng-ting, CHEN Qiu-song, QI Chong-chong. Slope safety, stability evaluation, and protective measures based on machine learning[J]. Chinese Journal of Engineering, 2022, 44(2): 180-188. doi: 10.13374/j.issn2095-9389.2021.06.02.008 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2021.06.02.008 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报. 2019, 41(3): 401 https://doi.org/10.13374/j.issn2095-9389.2019.03.014 基于支持向量回归与极限学习机的高炉铁水温度预测 Prediction of blast furnace hot metal temperature based on support vector regression and extreme learning machine 工程科学学报. 2021, 43(4): 569 https://doi.org/10.13374/j.issn2095-9389.2020.05.28.001 基于监督学习的前列腺MR/TRUS图像分割和配准方法 Prostate MR/TRUS image segmentation and registration methods based on supervised learning 工程科学学报. 2020, 42(10): 1362 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.006 三维软硬互层边坡的破坏模式与稳定性研究 Numerical analysis of the failure modes and stability of 3D slopes with interbreeding of soft and hard rocks 工程科学学报. 2017, 39(2): 182 https://doi.org/10.13374/j.issn2095-9389.2017.02.003 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报. 2021, 43(2): 179 https://doi.org/10.13374/j.issn2095-9389.2020.07.21.001
工程科学学报.第44卷.第2期:180-188.2022年2月 Chinese Journal of Engineering,Vol.44,No.2:180-188,February 2022 https://doi.org/10.13374/j.issn2095-9389.2021.06.02.008;http://cje.ustb.edu.cn 基于机器学习的边坡安全稳定性评价及防护措施 武梦婷,陈秋松,齐冲冲四 中南大学资源与安全工程学院,长沙410083 ☒通信作者,E-mail:chongchong.qi@csu.edu.cn 摘要为了更加快捷、高效地判定边坡稳定与否,基于机器学习,融合主成分分析法(P℃A)、参数调整、影响因素权重分析 等,建立了一种边坡安全稳定性评价体系.研究发现,运用PCA可以在保留80%数据原信息的前提下将输人变量维度从六 维降至三维,但此时模型效果有所下降:随机森林及梯度提升(XGBo0s)两种学习算法均可搭建有效的边坡安全稳定性评估 模型,通过对其预测效果的对比分析,确定XGBo0s为最佳评价模型.与此同时,采取卡方检验、F检验以及互信息法3种相 关性检验手段,并通过计算评价因子的重要程度且加以可视化展示,明确了容重、坡高、内摩擦角以及内聚力4个内在因素 的重要性,最终将评估结果与实际结合提出了边坡安全防护措施. 关键词边坡稳定性评价:机器学习;随机森林:XGBoost:防护措施 分类号X936 Slope safety,stability evaluation,and protective measures based on machine learning WU Meng-ting.CHEN Qiu-song.QI Chong-chong School of Resources and Safety Engineering.Central South University,Changsha410083,China Corresponding author,E-mail:chongchong.qi@csu.edu.cn ABSTRACT In recent years,the slope instability has brought immeasurable costs to production and life of human.As a result,it is essential to correctly understand,analyze,and design the slope reasonably,and implement appropriate protective measures to minimize the loss and harm caused by its instability.By far,slope stability can be investigated using theoretical analysis,numerical modeling and machine learning prediction,among them machine learning prediction has been the most encouraging one.Many studies have been performed using machine learning algorithms to predict the slope stability.However,these methods suffers from poor accuracy and poor generalisation capbility,so its real-life application has been limited.In the current study,a machine learning-based slope safety and stability evaluation system is established by integrating principal component analysis,parameter adjustment,and influence factor weight analysis.It is shown that PCA can reduce the dimensions of the input variables from six to three while retaining 80%of the information; however,at the cost of the model's effectiveness.The random forest and XGBoost(eXtreme Gradient Boosting)learning algorithms can both be employed to develop effective evaluation models for slope safety and stability.The comparative analysis of algorithms' prediction effects established XGBoost as the best evaluation model,which can achieve the average accuracy of 92%,precision of91%, recall of 96%,and the area under the receiver operating characteristic curve (AUC)of 0.95.In addition,this study employs three types of test methods:the chi-square test,F test correlation,and mutual information method,meanwhile by calculating and visualizing the importance of influencing factors,the influence of unit weight,slope height,internal friction angle and cohesion on slope stability is demonstrated.It has been shown that the unit weight is the most influencing factor for the slope stability.Finally,the slope safety protection measures are proposed by combining the evaluation results with the actual project. KEY WORDS slope stability evaluation;machine learning;random forest;XGBoost;protective measures 收稿日期:2021-06-02 基金项目:中央高校基本科研业务费专项资金资助项目(202045009):国家自然科学基金资助项目(52074351)
基于机器学习的边坡安全稳定性评价及防护措施 武梦婷,陈秋松,齐冲冲苣 中南大学资源与安全工程学院, 长沙 410083 苣通信作者, E-mail: chongchong.qi@csu.edu.cn 摘 要 为了更加快捷、高效地判定边坡稳定与否,基于机器学习,融合主成分分析法(PCA)、参数调整、影响因素权重分析 等,建立了一种边坡安全稳定性评价体系. 研究发现,运用 PCA 可以在保留 80% 数据原信息的前提下将输入变量维度从六 维降至三维,但此时模型效果有所下降;随机森林及梯度提升 (XGBoost) 两种学习算法均可搭建有效的边坡安全稳定性评估 模型,通过对其预测效果的对比分析,确定 XGBoost 为最佳评价模型. 与此同时,采取卡方检验、F 检验以及互信息法 3 种相 关性检验手段,并通过计算评价因子的重要程度且加以可视化展示,明确了容重、坡高、内摩擦角以及内聚力 4 个内在因素 的重要性,最终将评估结果与实际结合提出了边坡安全防护措施. 关键词 边坡稳定性评价;机器学习;随机森林;XGBoost;防护措施 分类号 X936 Slope safety, stability evaluation, and protective measures based on machine learning WU Meng-ting,CHEN Qiu-song,QI Chong-chong苣 School of Resources and Safety Engineering, Central South University, Changsha 410083, China 苣 Corresponding author, E-mail: chongchong.qi@csu.edu.cn ABSTRACT In recent years, the slope instability has brought immeasurable costs to production and life of human. As a result, it is essential to correctly understand, analyze, and design the slope reasonably, and implement appropriate protective measures to minimize the loss and harm caused by its instability. By far, slope stability can be investigated using theoretical analysis, numerical modeling and machine learning prediction, among them machine learning prediction has been the most encouraging one. Many studies have been performed using machine learning algorithms to predict the slope stability. However, these methods suffers from poor accuracy and poor generalisation capbility, so its real-life application has been limited. In the current study, a machine learning-based slope safety and stability evaluation system is established by integrating principal component analysis, parameter adjustment, and influence factor weight analysis. It is shown that PCA can reduce the dimensions of the input variables from six to three while retaining 80% of the information; however, at the cost of the model’s effectiveness. The random forest and XGBoost (eXtreme Gradient Boosting) learning algorithms can both be employed to develop effective evaluation models for slope safety and stability. The comparative analysis of algorithms ’ prediction effects established XGBoost as the best evaluation model, which can achieve the average accuracy of 92%, precision of 91%, recall of 96%, and the area under the receiver operating characteristic curve (AUC) of 0.95. In addition, this study employs three types of test methods: the chi-square test, F test correlation, and mutual information method, meanwhile by calculating and visualizing the importance of influencing factors, the influence of unit weight, slope height, internal friction angle and cohesion on slope stability is demonstrated. It has been shown that the unit weight is the most influencing factor for the slope stability. Finally, the slope safety protection measures are proposed by combining the evaluation results with the actual project. KEY WORDS slope stability evaluation;machine learning;random forest;XGBoost;protective measures 收稿日期: 2021−06−02 基金项目: 中央高校基本科研业务费专项资金资助项目(202045009);国家自然科学基金资助项目(52074351) 工程科学学报,第 44 卷,第 2 期:180−188,2022 年 2 月 Chinese Journal of Engineering, Vol. 44, No. 2: 180−188, February 2022 https://doi.org/10.13374/j.issn2095-9389.2021.06.02.008; http://cje.ustb.edu.cn
武梦婷等:基于机器学习的边坡安全稳定性评价及防护措施 181· 关于边坡灾害事故的防治,首先要做的就是 针对以上问题,本文在使用归一化处理对数 对边坡的安全稳定状态进行合理分析与评价,这 据质量进行改善后,采用了随机森林以及XGBoost 也是边坡防治工程的核心与重点.目前,评估边坡 两种学习算法搭建边坡安全稳定性评估模型,在 是否安全稳定最常采取的还是定性分析以及定量 对其预测效果进行对比后确定最终评价模型.此 求解等传统手段.但边坡作为一个动态开环系统, 外,还增加了建模前的特征工程以及建模后的特 其难以确定的安全影响因子很多,且大多具有参 征重要性分析步骤,得出评价因子的影响权重后, 数模糊以及随机可变等特点,因此,传统手段应用 将评估结果与实际结合提出了边坡安全防护措施 起来都有相对的局限性.而随着研究的深入,确定 1方法原理 性与不确定分析相联合、通过物理模拟构建离心 模型等也成为边坡研究的新途径,但上述方法尚 1.1 PCA 存在一些未解决的问题,方法结果的实际可信度 PCA是一种使用线性代数来转换压缩数据的 有所降低 技术手段.其通过将线性相关的多个指标重组成 随着机器学习技术的快速兴起,为边坡安全 一组数量较少且相互独立的综合指标,来实现在 稳定性研究提出了一种新思路.国内外学者开始 减少特征数量的同时,保留大量有用信息2-降 将决策树山、随机森林、支持向量机2-以及朴素 维过程中所使用的衡量指标是样本方差,方差越 贝叶斯等算法广泛应用于边坡研究中.Neuland 大,说明特征含有的有效信息越多,对于模型的创 通过收集分析250个边坡数据,明确了31处变量, 建能够有所贡献.方差的计算公式见式(1): 并借助主成分分析方法(PCA)解释了其间的函数 1 关系,从而构建了一个评估边坡是否稳定的算法 Var= n-l (-)2 (1) 模型,且在测试数据中泛化能力较好Pradhan 与L借助逆向传播的神经网络,对巴生谷地区的 其中,Var代表方差;n代表样本总数;x代表每一 个特征的第i个样本值:代表对应某一个特征的 边坡进行了研究,计算了坡率、坡高等11个相关 所有样本的平均值 影响因素的权重值,计算结果显示人工神经网络 (ANN)优于先前采用手段m.Alavi与Gandomi利 PCA降维的核心原理是在确定方差数值排列 用遗传算法对岩土边坡的具体问题进行了研究剧 前二的数据方向后,使用类比的方法将全部主成 Martins与Miranda进行了多次逻辑回归,并采用 分的方向予以确定,然后通过分解协方差矩阵得 随机森林、K近邻算法以及决策树等多种方法途 出其特征向量及特征值,从而实现将初始数据压 径来探索边坡的稳定状态四.赵洪波基于极限平衡 缩映射至新的低维空间,并保证总信息量损失较 少.具体实施步骤如下: 创建学习样本,并将一阶二次矩应用于支持向量 机中对边坡可靠性进行分析研究,陈善攀在对 (1)输入b条a维数据构成样本集X=(x四, 边坡进行可靠性分析时,提出了能够精确计算边 x②,…,x),其中a代表特征个数; 坡可靠评估标准并同步搜寻最危滑体的算法,并 (2)将x四②,…,x进行归一化处理,得到矩 借助面向对象进行了边坡稳定系统编码山 阵X; 尽管上述学者应用机器学习在边坡领域已取 (3)求解出协方差矩阵C=xX,以及其特征 得了些许成果,但其研究尚存在以下不足:①由于 值和特征向量; 评价因子数量较少,采用压缩、转换数据构建模型 (4)将特征值由大到小排序后,取出与之对应 的手段并不常见,且对于PCA法在边坡问题中的 的前g个特征向量组成新特征空间; 适用性与可行性也从未进行详细探究;②文献中 (5)Y=VTX即为特征降到g维的新的样本集 使用诸如梯度提升算法(XGBoost)等快速更新的 1.2 XGBoost 先进评估器对边坡稳定性进行预测的尝试不多, XGBoost是一种利用正则项等手段来简化模 且构建多种模型进行对比研究的方式也相对较 型,使其具有高精度、高效率以及较高预测准确率 少;③影响因素的权重分析不够全面,缺少基于相 的提升算法.该算法以梯度提升算法为基础,通过 关性检验的权重分析与基于智能模型的权重分析 不断添加决策树并进行特征分解来学习新函数, 的综合对比:④未对评价结果进行深入考虑及合 从而拟合残留的预测误差;当k棵树训练完毕后 理部署,缺少智能驱动的边坡安全防护措施 可根据样本特征计算叶子节点分数,通过累加得
关于边坡灾害事故的防治,首先要做的就是 对边坡的安全稳定状态进行合理分析与评价,这 也是边坡防治工程的核心与重点. 目前,评估边坡 是否安全稳定最常采取的还是定性分析以及定量 求解等传统手段. 但边坡作为一个动态开环系统, 其难以确定的安全影响因子很多,且大多具有参 数模糊以及随机可变等特点,因此,传统手段应用 起来都有相对的局限性. 而随着研究的深入,确定 性与不确定分析相联合、通过物理模拟构建离心 模型等也成为边坡研究的新途径. 但上述方法尚 存在一些未解决的问题,方法结果的实际可信度 有所降低. 随着机器学习技术的快速兴起,为边坡安全 稳定性研究提出了一种新思路. 国内外学者开始 将决策树[1]、随机森林、支持向量机[2−4] 以及朴素 贝叶斯[5] 等算法广泛应用于边坡研究中. Neuland 通过收集分析 250 个边坡数据,明确了 31 处变量, 并借助主成分分析方法 (PCA) 解释了其间的函数 关系,从而构建了一个评估边坡是否稳定的算法 模型,且在测试数据中泛化能力较好[6] . Pradhan 与 Li 借助逆向传播的神经网络,对巴生谷地区的 边坡进行了研究,计算了坡率、坡高等 11 个相关 影响因素的权重值,计算结果显示人工神经网络 (ANN) 优于先前采用手段[7] . Alavi 与 Gandomi 利 用遗传算法对岩土边坡的具体问题进行了研究[8] . Martins 与 Miranda 进行了多次逻辑回归,并采用 随机森林、K 近邻算法以及决策树等多种方法途 径来探索边坡的稳定状态[9] . 赵洪波基于极限平衡 创建学习样本,并将一阶二次矩应用于支持向量 机中对边坡可靠性进行分析研究[10] . 陈善攀在对 边坡进行可靠性分析时,提出了能够精确计算边 坡可靠评估标准并同步搜寻最危滑体的算法,并 借助面向对象进行了边坡稳定系统编码[11] . 尽管上述学者应用机器学习在边坡领域已取 得了些许成果,但其研究尚存在以下不足:①由于 评价因子数量较少,采用压缩、转换数据构建模型 的手段并不常见,且对于 PCA 法在边坡问题中的 适用性与可行性也从未进行详细探究;②文献中 使用诸如梯度提升算法 (XGBoost) 等快速更新的 先进评估器对边坡稳定性进行预测的尝试不多, 且构建多种模型进行对比研究的方式也相对较 少;③影响因素的权重分析不够全面,缺少基于相 关性检验的权重分析与基于智能模型的权重分析 的综合对比;④未对评价结果进行深入考虑及合 理部署,缺少智能驱动的边坡安全防护措施. 针对以上问题,本文在使用归一化处理对数 据质量进行改善后,采用了随机森林以及 XGBoost 两种学习算法搭建边坡安全稳定性评估模型,在 对其预测效果进行对比后确定最终评价模型. 此 外,还增加了建模前的特征工程以及建模后的特 征重要性分析步骤,得出评价因子的影响权重后, 将评估结果与实际结合提出了边坡安全防护措施. 1 方法原理 1.1 PCA PCA 是一种使用线性代数来转换压缩数据的 技术手段. 其通过将线性相关的多个指标重组成 一组数量较少且相互独立的综合指标,来实现在 减少特征数量的同时,保留大量有用信息[12−14] . 降 维过程中所使用的衡量指标是样本方差,方差越 大,说明特征含有的有效信息越多,对于模型的创 建能够有所贡献. 方差的计算公式见式(1): Var = 1 n−1 ∑n i = 1 (xi − xˆ) 2 (1) xi xˆ 其中,Var 代表方差;n 代表样本总数; 代表每一 个特征的第 i 个样本值; 代表对应某一个特征的 所有样本的平均值. PCA 降维的核心原理是在确定方差数值排列 前二的数据方向后,使用类比的方法将全部主成 分的方向予以确定,然后通过分解协方差矩阵得 出其特征向量及特征值,从而实现将初始数据压 缩映射至新的低维空间,并保证总信息量损失较 少. 具体实施步骤如下: ··· , x ( 1) 输 入 b 条 a 维数据构成样本 集 X=( x (1) , x (2) , (b) ),其中 a 代表特征个数; (2)将 x ··· , x (1) ,x (2) , (b) 进行归一化处理,得到矩 阵 X 1 ; C = 1 b XXT (3)求解出协方差矩阵 ,以及其特征 值和特征向量; (4)将特征值由大到小排序后,取出与之对应 的前 q 个特征向量组成新特征空间 V; Y = V TX 1 (5) 即为特征降到 q 维的新的样本集. 1.2 XGBoost XGBoost 是一种利用正则项等手段来简化模 型,使其具有高精度、高效率以及较高预测准确率 的提升算法. 该算法以梯度提升算法为基础,通过 不断添加决策树并进行特征分解来学习新函数, 从而拟合残留的预测误差;当 k 棵树训练完毕后 可根据样本特征计算叶子节点分数,通过累加得 武梦婷等: 基于机器学习的边坡安全稳定性评价及防护措施 · 181 ·
.182 工程科学学报,第44卷.第2期 到样本的预测值.XGBoost模型构建主要分为以 定了随机森林算法预测准确性的高低. 下四个步骤: 随机森林模型搭建的基本思路如下:①从数 (1)建立目标函数并求取最优解.如式(2)所 据集中有放回的随机抽取b个样本1:②随机选 示,目标函数=传统损失函数+模型复杂度 取α个特征并利用这些特征对所选取的样本进行 决策树的构建:③将步骤①和②重复:次生成:棵 (2) 决策树,组合形成随机森林:④利用随机森林中的 =1 k=1 z棵树对新数据进行判断,最后投票确认所属类别. 其中,i表数据集中的第i个样本;m表示导入第 k棵树的数据总量;K代表建立的所有树:O,)是 2 边坡稳定性预测模型 模型的损失函数,用于评估分类器的概率输出, 2.1样本数据集数据分析 表示真实标签:表示预测值:龙)是全部 收集整理数据集是建立机器学习预测模型的 k=1 K棵树的复杂度求和,f表示第k棵决策树,Ω表示 第一步.在实际工程领域中,对于一个具体的问题, 树模型的某种变换 使用网络公开的一些合理且具有代表性的数据集, (2)利用泰勒公式将目标函数展开后对其进 其预测结果更具有说服力.因此,本文收集了168 行整合、重组,使其转化为与预测残差相关的多项 个坡度剖面的数据集,该数据集由文献[19-23]中 式,如式(3)所示; 的不同论文汇编而成,并已广泛用于边坡稳定性 预测,其统计特征如图1所示.其中,N代表边坡 [.D) 样本的总数量,Mean和Std分别代表着每一个特 征的均值和标准差,Min和Max为对应特征的最 f8:+fh,]+0) (3) 小值和最大值,Med为特征的中位数 2.2预测模型建立流程 其中,1y,-+f(x)是x)对应的损失函数,其 (1)数据预处理.数据的质量影响着机器学习 中y表示第1棵树的真实标签,-是第1步模 模型的性能,决定了算法所能达到的模型上限 型给出的预测值,f(x)是第1棵树的模型;和h分 分析图1可知,原始数据集的孔隙水压力因子存 别是损失函数的一阶和二阶导数 在异常值,因此,应将该样本进行删除清理,最终 (3)基于目标函数,采取某种手段将树的结构 保留167条数据.又因原始数据为连续型变量,存 优化,最终转变为的结构分数如式(4)所示: 在数据尺度、量纲不统一等问题.对此本文使用 T c 归一化处理的手段对数据进行转换,并将处理完 0oj=-2H++7 (4) 毕的数据应用于算法,来提高模型算法的准确度. jl (2)建模因子的初步确定及筛选.本文收集的 其中,y和入为提前设定的超参数;T表示叶子数 数据集中包含了对边坡稳定性影响最大的一些参 量;G和H由损失函数和特定结构下树的预测结 数:几何形状、重力、地质力学参数和土壤中的水 果共同决定:结构分数Ob越小表示树越优化 量.对这些参数进行分析,初步确定了边坡高度、 (4)树的结构确定后,借助贪心算法来实现树 边坡角、孔隙压力比、容重、内聚力和内摩擦角 的分裂并求取算法模型的局部最优解阿 6个建模因子后,借助方差过滤手段来删除方差值 1.3随机森林 为0且对样本区分没有价值的特征.然后再使用 为验证XGBoost算法的高精度与高效率,基 卡方检验、F检验以及互信息法3种相关性检验 于先前研究成果6,本文选取了预测准确率较高 的方法对建模因子进行筛选 的随机森林算法进行对比. (3)PCA降维.为了对比不同特征工程手段对 随机森林是集成学习并行模式中的一种十分 于预测模型准确率的影响,本文还采用PCA降维 典型的机器学习算法.该算法以单独的决策树作 算法对特征进行处理,创造具有不可读性的全新 为弱学习器,且弱学习器间互不依赖,其原理是将 特征.此外,考虑到保留特征过多达不到降维效 Bagging袋装集成作为理论基础,在对决策树进行 果,以及留下特征较少,新特征向量无法容纳初始 独立训练时利用随机种子来进行抉择)针对袋 数据的大部分信息等弊端,本文借助累积可解释 装法,由于集成结果依赖于少数服从多数及平均 方差贡献率曲线及最大似然估计自动选取降维参 值准则,所以独立决策树的预测正确与否直接决 数n_components的最佳取值,并基于此查看模型
到样本的预测值. XGBoost 模型构建主要分为以 下四个步骤: (1)建立目标函数并求取最优解. 如式(2)所 示,目标函数=传统损失函数+模型复杂度. Obj = ∑m i=1 l(yi , yˆi)+ ∑ K k=1 Ω(fk) (2) l(yi , yˆi) yi yˆi ∑ K k=1 Ω(fk) fk Ω 其中,i 表数据集中的第 i 个样本;m 表示导入第 k 棵树的数据总量;K 代表建立的所有树; 是 模型的损失函数,用于评估分类器的概率输出, 表示真实标签 ; 表示预测值 ; 是 全 部 K 棵树的复杂度求和, 表示第 k 棵决策树, 表示 树模型的某种变换. (2)利用泰勒公式将目标函数展开后对其进 行整合、重组,使其转化为与预测残差相关的多项 式,如式(3)所示; Obj ≈ ∑m i=1 [l(y t i , yˆi (t−1) + ft(xi))] ≈ ∑m i=1 [l(y t i , yˆi (t−1))+ ft(xi)gi + 1 2 (ft 2 (xi)hi)]+ Ω(ft) (3) l(y t i , yˆi (t−1) + ft(xi)) y t i yˆi (t−1) ft(xi) gi hi 其中, 是 f(x) 对应的损失函数,其 中 表示第 t 棵树的真实标签, 是第 t−1 步模 型给出的预测值, 是第 t 棵树的模型; 和 分 别是损失函数的一阶和二阶导数. (3)基于目标函数,采取某种手段将树的结构 优化,最终转变为的结构分数如式(4)所示: Obj = − 1 2 ∑ T j=1 G 2 j Hj +λ +γT (4) γ λ Gj Hj 其中, 和 为提前设定的超参数;T 表示叶子数 量; 和 由损失函数和特定结构下树的预测结 果共同决定;结构分数 Obj 越小表示树越优化. (4)树的结构确定后,借助贪心算法来实现树 的分裂并求取算法模型的局部最优解[15] . 1.3 随机森林 为验证 XGBoost 算法的高精度与高效率,基 于先前研究成果[16] ,本文选取了预测准确率较高 的随机森林算法进行对比. 随机森林是集成学习并行模式中的一种十分 典型的机器学习算法. 该算法以单独的决策树作 为弱学习器,且弱学习器间互不依赖,其原理是将 Bagging 袋装集成作为理论基础,在对决策树进行 独立训练时利用随机种子来进行抉择[17] . 针对袋 装法,由于集成结果依赖于少数服从多数及平均 值准则,所以独立决策树的预测正确与否直接决 定了随机森林算法预测准确性的高低. 随机森林模型搭建的基本思路如下:①从数 据集中有放回的随机抽取 b 个样本[18] ;②随机选 取 a 个特征并利用这些特征对所选取的样本进行 决策树的构建;③将步骤①和②重复 z 次生成 z 棵 决策树,组合形成随机森林;④利用随机森林中的 z 棵树对新数据进行判断,最后投票确认所属类别. 2 边坡稳定性预测模型 2.1 样本数据集数据分析 收集整理数据集是建立机器学习预测模型的 第一步. 在实际工程领域中,对于一个具体的问题, 使用网络公开的一些合理且具有代表性的数据集, 其预测结果更具有说服力. 因此,本文收集了 168 个坡度剖面的数据集,该数据集由文献 [19−23] 中 的不同论文汇编而成,并已广泛用于边坡稳定性 预测,其统计特征如图 1 所示. 其中,N 代表边坡 样本的总数量,Mean 和 Std 分别代表着每一个特 征的均值和标准差,Min 和 Max 为对应特征的最 小值和最大值,Med 为特征的中位数. 2.2 预测模型建立流程 (1)数据预处理. 数据的质量影响着机器学习 模型的性能,决定了算法所能达到的模型上限[24] . 分析图 1 可知,原始数据集的孔隙水压力因子存 在异常值,因此,应将该样本进行删除清理,最终 保留 167 条数据. 又因原始数据为连续型变量,存 在数据尺度、量纲不统一等问题. 对此本文使用 归一化处理的手段对数据进行转换,并将处理完 毕的数据应用于算法,来提高模型算法的准确度. (2)建模因子的初步确定及筛选. 本文收集的 数据集中包含了对边坡稳定性影响最大的一些参 数:几何形状、重力、地质力学参数和土壤中的水 量. 对这些参数进行分析,初步确定了边坡高度、 边坡角、孔隙压力比、容重、内聚力和内摩擦角 6 个建模因子后,借助方差过滤手段来删除方差值 为 0 且对样本区分没有价值的特征. 然后再使用 卡方检验、F 检验以及互信息法 3 种相关性检验 的方法对建模因子进行筛选. (3)PCA 降维. 为了对比不同特征工程手段对 于预测模型准确率的影响,本文还采用 PCA 降维 算法对特征进行处理,创造具有不可读性的全新 特征. 此外,考虑到保留特征过多达不到降维效 果,以及留下特征较少,新特征向量无法容纳初始 数据的大部分信息等弊端,本文借助累积可解释 方差贡献率曲线及最大似然估计自动选取降维参 数 n_components 的最佳取值,并基于此查看模型 · 182 · 工程科学学报,第 44 卷,第 2 期
武梦婷等:基于机器学习的边坡安全稳定性评价及防护措施 183 100 (a) 40 ☐Stable slope (b) 35 50 L(c) Stable slope ☐Unstable slope ☐Unstable slope 168 30 =168 80 04.19 40 =68 =133.08 =102+ e76 60 320 -16 15 020 30 10 10 今8分s 6 Slope height/m Slope angle/() Pore-pressure ratio 50 35 (d) ☐Stable slope 120 (e) Stable sloo (f)☐Stableslope Unstable slope Unstable slope 30 Unstable slope 40 100 =168 =2176 Mean=34.12 25 =168 873 Sd4.15 S1d45.96 Min12 80 兰 S-10.61 20 M=0 60 00 20 Md=19.96 15 0 10 10 30 5 0 0 0 141618202224262830 0 50100150200250300 81216202428323640 Unit weight/(kN-m) Cohesion/kPa Internal friction angle/() 图1影响因素的特征统计.(a)坡高分布:(b)坡角分布:(c)孔隙压力比分布:(d)容重分布:(e)内聚力分布:(f)内摩擦角分布 Fig.1 Characteristic statistics of influencing factors:(a)distribution of slope height;(b)slope angle distribution;(c)pore pressure ratio distribution. (d)unit weight distribution;(e)distribution of cohesion;(f)interal friction angle distribution 预测准确率.下文将详细介绍PCA技术的研究成果 精确度,又被称为查准率,其分母为所有被判 (4)模型的初步建立及调参.本文首先将数据 断为正例的样本,而分子是真正的正例样本,召回 集中的167个样本按照3:7的比例随机划分产生 率,又叫作查全率、敏感度,其含义是在所有真实 测试集与训练集.然后在完整数据集上,利用筛选 为正例1的样本中,被预测为1的样本的占比.计 后的建模因子作为输入指标,同时采用随机森林 算定义如式(6)和(7)所示: 以及XGBoost两种学习算法搭建边坡安全稳定性 TP Precision (6) 评估模型.并使用10折交叉验证作为上述两种分 TP+FP TP 类器的评估指标,在不断增加弱学习器数量的基 Recall =TP+FN (7) 础上通过改变超参数来提升模型的分类效果 ROC是一条以假正率(FPR)为横坐标,Recall 2.3模型评估 为纵坐标的受试者工作特征曲线.曲线下方围成的 最佳超参数组合确定后,本文将调参完毕的 面积由AUC表示,其有效评价范围一般为[0.5,1]. 两种分类算法重新使用原始训练集进行训练并用 面积越大代表ROC曲线越陡,则模型性能越优良 测试集进行评估,选取了基于混淆矩阵的4个评 当AUC的值超过0.9时,代表该模型的预测非常 估指标:准确率(Accuracy)、查准率(Precision)、召 准确:而当其低于0.5时,便不再具有判断价值 回率(Recall)以及接受者操作特性曲线(ROC) 和该曲线下围成的面积(AUC,Area under curve), 3结果分析 对模型性能进行衡量 3.1PCA结果分析 其中,混淆矩阵可将真实类别与预测类别的 以降维后保留的特征个数作为横坐标,新特 误分及比重情况进行可视化,并将样例分为真、 征矩阵捕捉到的累积可解释方差贡献率作为纵坐 假、正、反例4种情况,分别用TP、FP、TN及FN 标,绘制曲线如图2所示.分析可知,降维后的最 表示.而准确率是指在全部样本中被预测正确的 佳维度范围处于3,4]之间,其所占的信息量占原 样本所占的比例,其取值越接近1代表预测效果 始数据总信息量的84%左右.特征减少一半的同 越好.如公式(5)所示: 时保留的信息量仍超过80%,在某种程度上证明 TP+TN 了PCA算法的可取性.继续缩小范围绘制细化的 Accuarcy (5) TP+FN+FP+TN 学习曲线,如图3所示,结合最大似然估计法可确
预测准确率. 下文将详细介绍 PCA 技术的研究成果. (4)模型的初步建立及调参. 本文首先将数据 集中的 167 个样本按照 3∶7 的比例随机划分产生 测试集与训练集. 然后在完整数据集上,利用筛选 后的建模因子作为输入指标,同时采用随机森林 以及 XGBoost 两种学习算法搭建边坡安全稳定性 评估模型. 并使用 10 折交叉验证作为上述两种分 类器的评估指标,在不断增加弱学习器数量的基 础上通过改变超参数来提升模型的分类效果. 2.3 模型评估 最佳超参数组合确定后,本文将调参完毕的 两种分类算法重新使用原始训练集进行训练并用 测试集进行评估,选取了基于混淆矩阵的 4 个评 估指标:准确率(Accuracy)、查准率(Precision)、召 回率(Recall) [25] 以及接受者操作特性曲线(ROC) 和该曲线下围成的面积(AUC,Area under curve) , 对模型性能进行衡量. 其中,混淆矩阵可将真实类别与预测类别的 误分及比重情况进行可视化,并将样例分为真、 假、正、反例 4 种情况,分别用 TP、FP、TN 及 FN 表示. 而准确率是指在全部样本中被预测正确的 样本所占的比例,其取值越接近 1 代表预测效果 越好. 如公式(5)所示: Accuarcy = TP+TN TP+FN+FP+TN (5) 精确度,又被称为查准率,其分母为所有被判 断为正例的样本,而分子是真正的正例样本. 召回 率,又叫作查全率、敏感度,其含义是在所有真实 为正例 1 的样本中,被预测为 1 的样本的占比. 计 算定义如式(6)和(7)所示: Precision = TP TP+FP (6) Recall = TP TP+FN (7) ROC 是一条以假正率(FPR)为横坐标, Recall 为纵坐标的受试者工作特征曲线. 曲线下方围成的 面积由 AUC 表示,其有效评价范围一般为 [0.5,1]. 面积越大代表 ROC 曲线越陡,则模型性能越优良. 当 AUC 的值超过 0.9 时,代表该模型的预测非常 准确;而当其低于 0.5 时,便不再具有判断价值. 3 结果分析 3.1 PCA 结果分析 以降维后保留的特征个数作为横坐标,新特 征矩阵捕捉到的累积可解释方差贡献率作为纵坐 标,绘制曲线如图 2 所示. 分析可知,降维后的最 佳维度范围处于 [3,4] 之间,其所占的信息量占原 始数据总信息量的 84% 左右. 特征减少一半的同 时保留的信息量仍超过 80%,在某种程度上证明 了 PCA 算法的可取性. 继续缩小范围绘制细化的 学习曲线,如图 3 所示,结合最大似然估计法可确 100 80 60 Numbers Numbers Numbers Numbers Numbers Numbers 40 20 Slope height/m Slope angle/(°) Pore-pressure ratio Unit weight/(kN·m−3) Cohesion/kPa Internal friction angle/(°) 0 (a) (d) (e) (f) (b) (c) 40 35 30 25 20 15 10 5 0 40 50 30 20 10 0 40 50 30 20 10 0 120 100 80 60 40 20 0 35 30 25 20 15 10 5 0 50 100 150 200 250 300 350 400 450 500 20 25 30 35 40 45 50 55 60 14 16 18 20 22 24 26 28 30 0 50 100 150 200 250 300 8 12 16 20 24 28 32 36 40 0 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 45 N=168 Mean=104.19 Std=133.08 Min=3.6 Max=511 Med=50 N=168 Mean=36.10 Std=10.25 Min=16 Max=59 Med=35 N=168 Mean=0.48 Std=3.46 Min=0 Max=45 Med=0.25 N=168 Mean=21.76 Std=4.15 Min=12 Max=31.3 Med=20.96 N=168 Mean=34.12 Std=45.96 Min=0 Max=300 Med=19.96 N=168 Mean=28.73 Std=10.61 Min=0 Max=45 Med=30.24 Stable slope Unstable slope Stable slope Unstable slope Stable slope Unstable slope Stable slope Unstable slope Stable slope Unstable slope Stable slope Unstable slope 图 1 影响因素的特征统计. (a)坡高分布;(b)坡角分布;(c)孔隙压力比分布;(d)容重分布;(e)内聚力分布;(f)内摩擦角分布 Fig.1 Characteristic statistics of influencing factors: (a) distribution of slope height; (b) slope angle distribution; (c) pore pressure ratio distribution; (d) unit weight distribution; (e) distribution of cohesion; (f) internal friction angle distribution 武梦婷等: 基于机器学习的边坡安全稳定性评价及防护措施 · 183 ·