《工程科学学报》录用稿,htps:/doi.org/10.13374/i,issn2095-9389.2021.05.25.005©北京科技大学2020 基于不同算法的高炉操作炉型聚类效果对比 鲁杰,闫炳基趣,赵伟,李鹏,陈栋,国宏伟 苏州大学沙钢钢铁学院,苏州,江苏,215137 ☒通信作者,E-mail:bjyan(@sudaedu.cn 摘要高炉操作炉型与高炉操作、技术经济指标等关系密切,合理的操作炉型有利手保高炉生产的优 质、低耗、高产、长寿。通过对冷却壁温度的聚类分析,能够有效合理地表征高炉操作炉型的变化,对高 炉生产有着重要的指导意义。本文分别采用K-Means、TwoStep对数据集进行聚类分析,基于两种聚类算 法的原理,结合Davies-Bouldin indicator(DBI)与Dunn indicator(DI)对聚类结果进行评价,分析不同 聚类算法间的差异,得出了在本文所选的样本数据及数据特征基础上,KMas算法聚类结果更好的结论, 该研究可为高炉炼铁大数据分析中的聚类算法选择提供有力参考 关键词高炉操作炉型:K-Means:TwoStep:聚类;Davies-Bouldin indicator:l Dunn indicator 分类号TF512 Comparison of the effect of different clustering algorithms on the clustering of management of furnace profile LU Jie,】 YAN Bing-j,ZHAO Wei LI Peng,CHEN Dong,GUO Hong-wei School of Iron and Steel,Soochow University.Suzhou,Jiangsu215137,China Corresponding author,E-mail:biya Abstract Blast furnace eration profile is closely related to blast furnace's operation,technical and economic indicators,etc.Reasonable furnace operation profile is conducive to get high-quality hot metal,low fuel consumption,high yield and longevity of blast furnace production.Through cluster analysis of the stave temperature it can effectively and reasonably characterize the change of blast furnace operation profile,which has important guiding significance for blast furnace production.K-Means,TwoStep and hierarchical clustering algorithms are most commonly used in domestic for blast furnace operation profile monitoring at this stage.The research results also show that different clustering algorithms can basically achieve the management of blast furnace operation profile,but for different algorithms,the difference among the clustering results is not clear. Based on the previous research,this paper compared the clustering principles and research status with different algorithms,and selected two algorithms of K-Means and TwoStep which were more applied and more compatible with the algorithm principles.K-Means algorithm was a typical partition-based clustering algorithm,with low time complexity,high clustering efficiency,and good clustering quality.It was widely used in cluster analysis of blast 收精日期: 基童项目:国家自然科学基金资助项目(52074185,51774209)
基于不同算法的高炉操作炉型聚类效果对比 鲁 杰 ,闫炳基,赵 伟,李 鹏,陈 栋,国宏伟 苏州大学沙钢钢铁学院,苏州,江苏,215137 通信作者,E-mail: bjyan@suda.edu.cn 摘 要 高炉操作炉型与高炉操作、技术经济指标等关系密切,合理的操作炉型有利于保证高炉生产的优 质、低耗、高产、长寿。通过对冷却壁温度的聚类分析,能够有效合理地表征高炉操作炉型的变化,对高 炉生产有着重要的指导意义。本文分别采用 K-Means、TwoStep 对数据集进行聚类分析,基于两种聚类算 法的原理,结合 Davies-Bouldin indicator(DBI)与 Dunn indicator(DI)对聚类结果进行评价,分析不同 聚类算法间的差异,得出了在本文所选的样本数据及数据特征基础上,K-Means 算法聚类结果更好的结论, 该研究可为高炉炼铁大数据分析中的聚类算法选择提供有力参考。 关键词 高炉操作炉型;K-Means;TwoStep;聚类;Davies-Bouldin indicator;Dunn indicator 分类号 TF512 Comparison of the effect of different clustering algorithms on the clustering of management of furnace profile LU Jie,YAN Bing-ji,ZHAO Wei,LI Peng,CHEN Dong,GUO Hong-wei School of Iron and Steel, Soochow University, Suzhou, Jiangsu 215137, China Corresponding author, E-mail: bjyan@suda.edu.cn Abstract Blast furnace operation profile is closely related to blast furnace's operation, technical and economic indicators, etc. Reasonable furnace operation profile is conducive to get high-quality hot metal, low fuel consumption, high yield and longevity of blast furnace production. Through cluster analysis of the stave temperature, it can effectively and reasonably characterize the change of blast furnace operation profile, which has important guiding significance for blast furnace production. K-Means, TwoStep and hierarchical clustering algorithms are most commonly used in domestic for blast furnace operation profile monitoring at this stage. The research results also show that different clustering algorithms can basically achieve the management of blast furnace operation profile, but for different algorithms, the difference among the clustering results is not clear. Based on the previous research, this paper compared the clustering principles and research status with different algorithms, and selected two algorithms of K-Means and TwoStep which were more applied and more compatible with the algorithm principles. K-Means algorithm was a typical partition-based clustering algorithm, with low time complexity, high clustering efficiency, and good clustering quality. It was widely used in cluster analysis of blast 收稿日期: 基金项目: 国家自然科学基金资助项目(52074185,51774209) 《工程科学学报》录用稿,https://doi.org/10.13374/j.issn2095-9389.2021.05.25.005 ©北京科技大学 2020 录用稿件,非最终出版稿
furnace operation profile.In addition,domestic scholars had given effective improvement measures for its shortcomings of sensitivity to the initial center and requirements for data distribution.TwoStep algorithm was an improved BRICH algorithm,which reduced the time complexity,and could automatically determine the optimal number of clusters.The authors of this article considered the problem that indicators for evaluating furnace operation profile were multiple and large overlapped.Principal Component Analysis was introduced on the basis of TwoStep algorithm,and three new core indicators were generated from the traditional evaluation indicators for the clustering results of furnace operation profile.It also showed good performance in the application of blast furnace operation profile monitoring and management.In this paper,K-Means and TwoStep were used to cluster the data set.Based on the principles of the two clustering algorithms,combined with Davies-Bouldin indicator and Dunn indicator,the clustering results were analyzed to judge the difference between the two clustering algorithms and shown a conclusion that the K-Means algorithm clustering results were better based on th sample data and data characteristics selected in this article.This research could provide a powerful selection 录用稿件,非最终出版 among different clustering algorithms in blast furnace ironmaking big data analysis KEY WORDS management of furnace operation profile;K-Means; Tw ies-Bouldin indicator;Dunn indicator
furnace operation profile. In addition, domestic scholars had given effective improvement measures for its shortcomings of sensitivity to the initial center and requirements for data distribution. TwoStep algorithm was an improved BRICH algorithm, which reduced the time complexity, and could automatically determine the optimal number of clusters. The authors of this article considered the problem that indicators for evaluating furnace operation profile were multiple and large overlapped. Principal Component Analysis was introduced on the basis of TwoStep algorithm, and three new core indicators were generated from the traditional evaluation indicators for the clustering results of furnace operation profile. It also showed good performance in the application of blast furnace operation profile monitoring and management. In this paper, K-Means and TwoStep were used to cluster the data set. Based on the principles of the two clustering algorithms, combined with Davies-Bouldin indicator and Dunn indicator, the clustering results were analyzed to judge the difference between the two clustering algorithms and shown a conclusion that the K-Means algorithm clustering results were better based on the sample data and data characteristics selected in this article. This research could provide a powerful reference for the selection among different clustering algorithms in blast furnace ironmaking big data analysis. KEY WORDS management of furnace operation profile; K-Means; TwoStep; clustering; Davies-Bouldin indicator; Dunn indicator 录用稿件,非最终出版稿
高炉操作炉型是高炉投入生产后,经炉衬侵蚀、渣皮生成,由设计炉型逐渐演变而来 的表征高炉状态的高炉内型。在高炉冶炼过程中,高炉操作人员大多通过冷却壁参数、操 作参数,结合生产经验间接分析高炉操作炉型的变化情况,以此判断炉况的好坏②。为保 证高炉生产的优质、低耗、高产、长寿,就需要一个合理的高炉操作炉型。通过高炉冶炼 过程参数,有效合理地表征高炉操作炉型的状况及其变化过程,并分析造成变化的原因, 有利于高炉操作者及时调节高炉操作制度,优化生产过程。 大数据分析平台改善了传统工业的生产模式,对高炉炼铁生产具有重要指导意义。聚 类分析是大数据中重要一环,借助大数据平台,国内外学者探索了高炉料面控制、煤气调 度的优化、中心煤气流分布情况监测、高炉操作炉型监控、铁水温度预测及铁水硅含量预 测等技术B,有效优化了高炉治炼过程,是治金工业向智能制造转型的有力支撑。 K-Means、TwoStep是现阶段常用的高炉操作炉型聚类算法I3-16,但是对于不同聚类算 法,应用效果的对照关系不甚明确。本文以高炉治炼过程的冷却壁热电偶温度为表征参数, 利用K-Means和TwoStep聚类算法进行聚类分析,结合算法原理及聚类结果研究不同聚类 算法的效果差异,以期为高炉炼铁大数据分析中的聚类算法选择提有利参考 1聚类算法 1.1聚类算法的选择 聚类分析是数据挖掘技术中一项重要技术,通过将数据集合划分成多个类,基于数据 的特征将相似的样本归为一类,而相异的样本分置于不的类中,以此确保类内样本的同 质性及类间样本的异质性。随着数据挖掘技术应用方面愈发广泛,国内外学者将聚类分析 引入至高炉操作炉型的管理中,通过采用不同聚类算法对高炉治炼数据进行分析,有效合 理地表征高炉操作炉型的变化,对高炉生产有春重要的指导意义。 武森等人选择了K-Meas算法与层次聚类算法分别对高炉治炼数据进行分析,实现 了对高炉操作炉型波动与变化的实时监控有利于操作人员及时准确地调整高炉操作。 C.Saxena等人-1在K-Means算法的基础上引入了自组织特征映射(SOM),利用SOM 训练数据集,根据训练集的输出结果采用K-Means进行聚类以获得更好的聚类结果,在可 视化、解释模型方面取得较好的效果。而在武钢5号高炉操作炉型管理系统的开发过程中, 陈令坤io针对K-means算法对初始中心敏感、样本分布有要求的特点,对K-Means算法进 行了一定的改进,聚类绩果准确表征了高炉铜冷却壁温度变化,并借助炉型变化与高炉利 用系数的对应关系,步获得了武钢5号高炉的炉型变化规律。 曹英杰等人阅选TwoStep聚类算法研究国丰1号高炉操作炉型,对高炉冷却壁热 电偶温度值进行聚类分析,确定了高炉透气性指数与炉型变化的规律,并通过实践证明聚 类分析的结果能够有效监控炉型变化,指导高炉生产现场。而本文作者考虑到评价炉型 的指标多重叠性大的问题,曾在TwoStep算法的基础上引入主成分分析方法(Principal Component Analysis,PCA),从传统评价炉型的指标中生成3个新的核指标以评价聚类结 果,实践结果表明生成的核指标有效解决了指标多且重复性大的问题,有效优化了高炉操 作炉型的管理。 上述研究进展中涉及的聚类算法特点如表1所示2o-21。K-Means聚类算法是经典的基 于划分的聚类算法,时间复杂度低,聚类效率高,聚类质量好,在高炉操作炉型聚类分析 中应用较多,同时K-Means算法也存在对初始中心敏感、对数据分布有要求的缺点,但陈 令坤提出的改进方法是行之有效的,在对高炉操作炉型的管理中得到了优异效果6。层次 聚类算法的时间复杂度普遍较高,且ROCK、chameleon等典型算法并不支持大规模数据集 ,层次聚类算法在高炉操作炉型的研究中应用较少,武森等人也仅在研究中提到该方法 的可行性。自组织特征映射($OM)是一种基于模型的聚类算法,该算法存在时间复杂度
高炉操作炉型是高炉投入生产后,经炉衬侵蚀、渣皮生成,由设计炉型逐渐演变而来 的表征高炉状态的高炉内型。在高炉冶炼过程中,高炉操作人员大多通过冷却壁参数、操 作参数,结合生产经验间接分析高炉操作炉型的变化情况,以此判断炉况的好坏[1-2]。为保 证高炉生产的优质、低耗、高产、长寿,就需要一个合理的高炉操作炉型。通过高炉冶炼 过程参数,有效合理地表征高炉操作炉型的状况及其变化过程,并分析造成变化的原因, 有利于高炉操作者及时调节高炉操作制度,优化生产过程。 大数据分析平台改善了传统工业的生产模式,对高炉炼铁生产具有重要指导意义。聚 类分析是大数据中重要一环,借助大数据平台,国内外学者探索了高炉料面控制、煤气调 度的优化、中心煤气流分布情况监测、高炉操作炉型监控、铁水温度预测及铁水硅含量预 测等技术[3-12],有效优化了高炉冶炼过程,是冶金工业向智能制造转型的有力支撑。 K-Means、TwoStep 是现阶段常用的高炉操作炉型聚类算法[13-16],但是对于不同聚类算 法,应用效果的对照关系不甚明确。本文以高炉冶炼过程的冷却壁热电偶温度为表征参数, 利用 K-Means 和 TwoStep 聚类算法进行聚类分析,结合算法原理及聚类结果研究不同聚类 算法的效果差异,以期为高炉炼铁大数据分析中的聚类算法选择提供有利参考。 1 聚类算法 1.1 聚类算法的选择 聚类分析是数据挖掘技术中一项重要技术,通过将数据集合划分成多个类,基于数据 的特征将相似的样本归为一类,而相异的样本分置于不同的类中,以此确保类内样本的同 质性及类间样本的异质性。随着数据挖掘技术应用方面愈发广泛,国内外学者将聚类分析 引入至高炉操作炉型的管理中,通过采用不同聚类算法对高炉冶炼数据进行分析,有效合 理地表征高炉操作炉型的变化,对高炉生产有着重要的指导意义。 武森等人[17]选择了 K-Means 算法与层次聚类算法分别对高炉冶炼数据进行分析,实现 了对高炉操作炉型波动与变化的实时监控,有利于操作人员及时准确地调整高炉操作 。 C.Saxena 等人[18-19]在 K-Means 算法的基础上引入了自组织特征映射(SOM),利用 SOM 训练数据集,根据训练集的输出结果采用 K-Means 进行聚类以获得更好的聚类结果,在可 视化、解释模型方面取得较好的效果。而在武钢 5 号高炉操作炉型管理系统的开发过程中, 陈令坤[16]针对 K-means 算法对初始中心敏感、样本分布有要求的特点,对 K-Means 算法进 行了一定的改进,聚类结果准确表征了高炉铜冷却壁温度变化,并借助炉型变化与高炉利 用系数的对应关系,初步获得了武钢 5 号高炉的炉型变化规律。 曹英杰等人[15]选用了 TwoStep 聚类算法研究国丰 1 号高炉操作炉型,对高炉冷却壁热 电偶温度值进行聚类分析,确定了高炉透气性指数与炉型变化的规律,并通过实践证明聚 类分析的结果能够有效监控炉型变化,指导高炉生产现场。而本文作者[14]考虑到评价炉型 的指标多且重叠性大的问题,曾在 TwoStep 算法的基础上引入主成分分析方法(Principal Component Analysis,PCA),从传统评价炉型的指标中生成 3 个新的核指标以评价聚类结 果,实践结果表明生成的核指标有效解决了指标多且重复性大的问题,有效优化了高炉操 作炉型的管理。 上述研究进展中涉及的聚类算法特点如表 1 所示[20-25]。K-Means 聚类算法是经典的基 于划分的聚类算法,时间复杂度低,聚类效率高,聚类质量好,在高炉操作炉型聚类分析 中应用较多,同时 K-Means 算法也存在对初始中心敏感、对数据分布有要求的缺点,但陈 令坤提出的改进方法是行之有效的,在对高炉操作炉型的管理中得到了优异效果[16]。层次 聚类算法的时间复杂度普遍较高,且 ROCK、chameleon 等典型算法并不支持大规模数据集 [25],层次聚类算法在高炉操作炉型的研究中应用较少,武森等人也仅在研究中提到该方法 的可行性。自组织特征映射(SOM)是一种基于模型的聚类算法,该算法存在时间复杂度 录用稿件,非最终出版稿
高、不支持大规模数据集、聚类结果对模型参数敏感的缺点,其优势在于模型能够提供充 分描述数据的方法,C.Saxena等人结合了K-Means与SOM充分发挥了其在可视化、解释 模型方面的优点,但随着聚类算法的深入研究,判别分析、主成分分析等方法被用于聚类 结果的解释中,Counteny Mckim利用判别分析中的图形技术帮助使用者理解和解释集群 ,本文作者则借助主成分分析解决了指标重复性大的问题,研究结果也表明判别分析与 主成分分析方法在解释聚类结果时取得了良好的效果。TwoStep算法是改进的BRICH算法 (层次聚类算法),降低了算法的时间复杂度,并能够自动确定最佳聚类簇数,具有较好 的扩展性,在高炉操作炉型监控管理的应用中也表现出较好的效果。 囊1聚类算法分类及特点 Table.1 Classification and characteristics of clustering algorithms Clustering algorithms Advantages Disadvantages Low time complexity;High The number of clusters needed to be preset:not K-Means computing efficiency suitable for non-convex data Suitable for the arbitrary data set; High in time complexify:The number of clusters Based on Hierarchy High scalability needed to be preset Diverse and developed models High time complexity;The premise not SOM providing means to describe data completely correet,The clustering result adequately sensitive to the parameters of selected models Improved BRICH algorithm: Medium computational efficiency for large-scale TwoStep Automatically determined ustering algorithm cannot remerge or clustering numbers separate clusters to optimize clustering results 基于以上讨论,本文结合所研究数据对象的特征,选择了两种现阶段高炉操作炉型研 究中常用的聚类算法一一K-Means和TwoStep算法,对高炉炉身冷却壁热电偶数据进行聚 类分析,并借助合适的聚类有效性评价指标研究不同算法的聚类效果差异,以期为高炉 炼铁大数据分析中的聚类算法选择提供有力参考。 1.2K-Means算法、TwoStep算法理 (I)K-Means聚类的算法思想7是按照样本之间距离,将n个样本点划分为k个类, 使得相似的样本尽量被分到同个类,其衡量相似度的计算方法为欧氏距离。 K-Means算法的具体步骤为: 1.对全部个对像随机选择k个对象作为一个类的中心,代表将生成的k个类: 2.计算其他对象到聚类中心的距离,分派对象至距离最近的簇内: 3.针对每个类计算其所有对象的平均值,作为所有对象的新中心值: 4根据距离最近原则,重新分配数据: 5返同3)值至无变化,结束聚类。 (2 oStep两步聚类算法是BIRCH层次聚类算法的改良方法,加入了自动确定最 佳簇数量的机制,使得TwoStep算法更加实用281。 该聚类算法可分为预聚类阶段和聚类阶段。在预聚类阶段,采用了BIRCH算法中CF 树生长的思想,先遍历一遍数据,生成C℉树的同时,预先聚类较为密集的数据点,形成 诸多子簇。在聚类阶段,以预聚类阶段的子簇为对象,利用凝聚法逐个合并子簇,通过 AIC准则(Akaike Information Criterion)、BIC准则(Bayesian Information Criterion)以及 类别间最短距离确定最优类别数作为聚类终止的条件。 13聚类有效性评价榴标 聚类有效性评价指标分为内部指标和外部指标两类,两者的区别在于是否将外部信息
高、不支持大规模数据集、聚类结果对模型参数敏感的缺点,其优势在于模型能够提供充 分描述数据的方法,C.Saxena 等人结合了 K-Means 与 SOM 充分发挥了其在可视化、解释 模型方面的优点,但随着聚类算法的深入研究,判别分析、主成分分析等方法被用于聚类 结果的解释中,Counteny Mckim 利用判别分析中的图形技术帮助使用者理解和解释集群 [28],本文作者则借助主成分分析解决了指标重复性大的问题,研究结果也表明判别分析与 主成分分析方法在解释聚类结果时取得了良好的效果。TwoStep 算法是改进的 BRICH 算法 (层次聚类算法),降低了算法的时间复杂度,并能够自动确定最佳聚类簇数,具有较好 的扩展性,在高炉操作炉型监控管理的应用中也表现出较好的效果。 表 1 聚类算法分类及特点 Table.1 Classification and characteristics of clustering algorithms Clustering algorithms Advantages Disadvantages K-Means Low time complexity; High computing efficiency The number of clusters needed to be preset; not suitable for non-convex data Based on Hierarchy Suitable for the arbitrary data set; High scalability High in time complexity; The number of clusters needed to be preset SOM Diverse and developed models providing means to describe data adequately High time complexity; The premise not completely correct; The clustering result sensitive to the parameters of selected models TwoStep Improved BRICH algorithm; Automatically determined clustering numbers Medium computational efficiency for large-scale data;Clustering algorithm cannot remerge or separate clusters to optimize clustering results 基于以上讨论,本文结合所研究数据对象的特征,选择了两种现阶段高炉操作炉型研 究中常用的聚类算法——K-Means 和 TwoStep 算法,对高炉炉身冷却壁热电偶数据进行聚 类分析,并借助合适的聚类有效性评价指标,研究不同算法的聚类效果差异,以期为高炉 炼铁大数据分析中的聚类算法选择提供有力参考。 1.2 K-Means 算法、TwoStep 算法原理 (1)K-Means 聚类的算法思想[26-27]是按照样本之间距离,将 n 个样本点划分为 k 个类, 使得相似的样本尽量被分到同一个类,其衡量相似度的计算方法为欧氏距离。 K-Means 算法的具体步骤为: 1.对全部 n 个对象,随机选择 k 个对象作为一个类的中心,代表将生成的 k 个类; 2.计算其他对象到聚类中心的距离,分派对象至距离最近的簇内; 3.针对每个类计算其所有对象的平均值,作为所有对象的新中心值; 4.根据距离最近原则,重新分配数据; 5.返回(3)直至无变化,结束聚类。 (2)TwoStep 两步聚类算法是 BIRCH 层次聚类算法的改良方法,加入了自动确定最 佳簇数量的机制,使得 TwoStep 算法更加实用[28]。 该聚类算法可分为预聚类阶段和聚类阶段。在预聚类阶段,采用了 BIRCH 算法中 CF 树生长的思想,先遍历一遍数据,生成 CF 树的同时,预先聚类较为密集的数据点,形成 诸多子簇。在聚类阶段,以预聚类阶段的子簇为对象,利用凝聚法逐个合并子簇,通过 AIC 准则(Akaike Information Criterion)、BIC 准则(Bayesian Information Criterion)以及 类别间最短距离确定最优类别数作为聚类终止的条件。 1.3 聚类有效性评价指标 聚类有效性评价指标分为内部指标和外部指标两类,两者的区别在于是否将外部信息 录用稿件,非最终出版稿
用于聚类评价。在不考虑外部信息时,内部指标是利用数据集的空间几何结构信息评估 聚类结构的优劣。在许多场景中常有没有外标签可用的情况,内部指标是聚类评价的唯一 选择。聚类有效性评价的内部指标主要包括Compactness、Separation、Davies-.Bouldin indicator、Dunn indicator、Silhouette coefficient,这些评价指标的计算公式或方法如表2所 示25,303 囊2聚类评价指标 Table.2 Cluster evaluation index Name Measure method or formula Explanations Compactness k stands for the number of clusters; (CP) r回Ak Xi,X stand for the data points in the cluster; Ceach Wi,W;stand different cluste s for the distance from X:-W Separation (SP) 2玄 the data poin e center of cluster; ands for the distance Davies- C+C Bouldin DB=k之maw-W, among different clusters; indicator(DBI) stand for the average distance Dunn indicator min min x-xK (DI) 0<m≠n<k1Vx;∈Q of all data points in the same cluster, DI= stands for the distance max max x-x‖ 0<msKVx,x∈ among any two data points. Silhouette Evaluate the clustering result based on the average distance between a data point and other coefficient data points in the same cluster and average distance among different clusters,while the number of data samples among different clusters is almost same. Compactness计算了每类的类内各点到聚类中心的平均距离,但并没有考虑类间距 离;Separation计算聚类中心之间的平均距离,但没有考虑类内效果;Davies--Bouldin indicator和Dunn indicator考虑了类内效果与类间效果两方面,对聚类效果的评价更为全面: Silhouette coefficient适用于数据结构清楚、各簇样本数目相差不大的情况B),而本文所选 两种算法的聚类结果中各簇样本数目有明显差异,故而Silhouette coefficient并不适用。基 于五种聚类评价指标的特点,本文选用Davies--Bouldin indicator(DBI)和Dunn indicatorD)作为评价依据。 2基于不同聚类算法的高炉操作炉型聚类 本文采用的数据是国内某钢铁厂高炉炉身热电偶的31986条历史冶炼数据(考虑数据 缺失、中途休风等影响已去掉无效数据),通过高炉炉身不同高度的冷却壁及耐火材料处 安装的测量电偶,可以获得高炉炉身沿纵向8层热电偶(第6、7、8、9、10、11、12、14 段冷却壁,第13段无热电偶)测得的温度变化,高炉各段冷却壁位置如图3所示
用于聚类评价[29]。在不考虑外部信息时,内部指标是利用数据集的空间几何结构信息评估 聚类结构的优劣。在许多场景中常有没有外标签可用的情况,内部指标是聚类评价的唯一 选择。聚类有效性评价的内部指标主要包括 Compactness、Separation、Davies-Bouldin indicator、Dunn indicator、Silhouette coefficient,这些评价指标的计算公式或方法如表 2 所 示[25,30-32]。 表 2 聚类评价指标 Table.2 Cluster evaluation index Name Measure method or formula Explanations Compactness (CP) CP´ i= 1 |Ωi| ∑xi ϵΩi ‖xi−wi‖ CP´ = 1 K ∑ k=1 K CP´ k 1. kstands for the number of clusters; 2. xi , x j stand for the data points in the cluster; 3. wi ,wj stand for the centers of different clusters; 4. ‖xi−wi‖ stands for the distance from the data point to the center of cluster; 5. ‖wi−wj‖2 stands for the distance among different clusters; 6. C´ i ,C´ j stand for the average distance of all data points in the same cluster; 7. ‖xi−x j‖ stands for the distance among any two data points. Separation (SP) SP´ = 2 k 2−k ∑ i=1 k ∑ j=i+1 k ‖wi−wj‖2 DaviesBouldin indicator (DBI) DBI= 1 k ∑ i=1 k max j ≠i ( C´ i+C´ j ‖wi−wj‖2 ) Dunn indicator (DI) DI= min 0<m≠n<k { min ∀ xi∈Ωm ∀x j∈Ωn {‖xi−x j‖}} max 0<m≤ K max ∀ xi , xj∈Ωm {‖xi−x j‖} Silhouette coefficient Evaluate the clustering result based on the average distance between a data point and other data points in the same cluster and average distance among different clusters, while the number of data samples among different clusters is almost same. Compactness 计算了每一类的类内各点到聚类中心的平均距离,但并没有考虑类间距 离;Separation 计算了各聚类中心之间的平均距离,但没有考虑类内效果;Davies-Bouldin indicator 和 Dunn indicator 考虑了类内效果与类间效果两方面,对聚类效果的评价更为全面; Silhouette coefficient 适用于数据结构清楚、各簇样本数目相差不大的情况[33],而本文所选 两种算法的聚类结果中各簇样本数目有明显差异,故而 Silhouette coefficient 并不适用。基 于 五 种 聚 类 评 价 指 标 的 特 点 , 本 文 选 用 Davies-Bouldin indicator ( DBI ) 和 Dunn indicator(DI)作为评价依据。 2 基于不同聚类算法的高炉操作炉型聚类 本文采用的数据是国内某钢铁厂高炉炉身热电偶的 31986 条历史冶炼数据(考虑数据 缺失、中途休风等影响已去掉无效数据),通过高炉炉身不同高度的冷却壁及耐火材料处 安装的测量电偶,可以获得高炉炉身沿纵向 8 层热电偶(第 6、7、8、9、10、11、12、14 段冷却壁,第 13 段无热电偶)测得的温度变化,高炉各段冷却壁位置如图 3 所示。 录用稿件,非最终出版稿