当前位置：和泉文库 > 工程 > 浏览文档

《工程科学学报》：基于文本挖掘的矿山安全隐患大数据分析与可视化

文件格式：PDF，文件大小：1.55MB，售价：4.3元

文档详细内容（约12页）

工程科学学报 Chinese Journal of Engineering 基于文本挖据的矿山安全隐患大数据分析与可视化郭对明李国清胡乃联侯杰 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming.LI Guo-qing.HU Nai-lian,HOU Jie 引用本文：郭对明，李国清，胡乃联，侯杰.基于文本挖掘的矿山安全隐患大数据分析与可视化工程科学学报，2022,44(3)：328-338. doi10.13374j.issn2095-9389.2020.10.23.004 GUO Dui-ming.LI Guo-qing.HU Nai-lian,HOU Jie.Big data analysis and visualization of potential hazardous risks of the mine based on text mining[J].Chinese Journal of Engineering,2022,44(3):328-338.doi:10.13374/j.issn2095-9389.2020.10.23.004 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.10.23.004 您可能感兴趣的其他文章 Articles you may be interested in 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报.2021,432：179 https:1doi.org10.13374.issn2095-9389.2020.07.21.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报.2018.40(11)：1373htps:/doi.org10.13374.issn2095-9389.2018.11.011 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报.2017,394：611htps:1doi.0g10.13374.issn2095-9389.2017.04.017 基于空间近邻关系的非平衡数据重采样算法 Resampling algorithm for imbalanced data based on their neighbor relationship 工程科学学报.2021,43(6：862 https:ldoi.org10.13374j.issn2095-9389.2020.04.05.002 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报.2020,42(9%：1209 https:/doi.org10.13374.issn2095-9389.2019.10.09.003 基于索引存根表的云存储数据完整性审计 Cloud storage data integrity audit based on an indexstub table 工程科学学报.2020,42(4：490 https:/ldoi.org/10.13374.issn2095-9389.2019.09.15.008

基于文本挖掘的矿山安全隐患大数据分析与可视化郭对明李国清胡乃联侯杰 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming, LI Guo-qing, HU Nai-lian, HOU Jie 引用本文: 郭对明, 李国清, 胡乃联, 侯杰. 基于文本挖掘的矿山安全隐患大数据分析与可视化[J]. 工程科学学报, 2022, 44(3): 328-338. doi: 10.13374/j.issn2095-9389.2020.10.23.004 GUO Dui-ming, LI Guo-qing, HU Nai-lian, HOU Jie. Big data analysis and visualization of potential hazardous risks of the mine based on text mining[J]. Chinese Journal of Engineering, 2022, 44(3): 328-338. doi: 10.13374/j.issn2095-9389.2020.10.23.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004 您可能感兴趣的其他文章 Articles you may be interested in 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报. 2021, 43(2): 179 https://doi.org/10.13374/j.issn2095-9389.2020.07.21.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报. 2018, 40(11): 1373 https://doi.org/10.13374/j.issn2095-9389.2018.11.011 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报. 2017, 39(4): 611 https://doi.org/10.13374/j.issn2095-9389.2017.04.017 基于空间近邻关系的非平衡数据重采样算法 Resampling algorithm for imbalanced data based on their neighbor relationship 工程科学学报. 2021, 43(6): 862 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报. 2020, 42(9): 1209 https://doi.org/10.13374/j.issn2095-9389.2019.10.09.003 基于索引存根表的云存储数据完整性审计 Cloud storage data integrity audit based on an indexstub table 工程科学学报. 2020, 42(4): 490 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.008

工程科学学报.第44卷.第3期：328-338.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:328-338,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004;http://cje.ustb.edu.cn 基于文本挖掘的矿山安全隐患大数据分析与可视化郭对明，2)，李国清1,2)区，胡乃联1,2)，侯杰1,2) 1)北京科技大学土木与资源工程学院.北京1000832)金属矿山高效开采与安全教育部重点实验室，北京100083 ☒通信作者，E-mail:qqlee@ustb.edu.cn 摘要基于大数据分析技术，构建了矿山安全隐患多维度分析模型，分析了隐患在时间和空间两个维度上的分布规律；利用主题挖掘模型将众多隐患信息归类，得到了13个隐患主题；利用关联规则挖掘模型探究了不同隐患之间的内在联系，并利用R编程语言对上述结果进行可视化展示.通过对安全隐患的分析研究不仅充分利用了矿山隐患数据，避免了数据资源的浪费，同时也对矿山井下事故预防有一定的指导价值关键词矿山安全：文本挖掘：隐患数据：大数据分析：可视化分类号TD77.1 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming,LI Guo-qing HU Nai-lian2),HOU Jie2 1)School of Civil and Resource Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of High-Efficient Mining and Safety of Metal Mines,Ministry of Education,Beijing 100083,China Corresponding author,E-mail:qqlee@ustb.edu.cn ABSTRACT Compared with other production industries,metal mine is recognized as a high accident rate and the highest casualty rate due to the bad working environment.Therefore,safety production is the key concern of mining enterprises.With the attention of enterprises to safety problems and the increasing improvement of mine safety management system,many mines have established secure big data platform to effectively manage production and ensure the safety of underground operation,receiving the safety hazard information from daily safety inspection into the platform.However,due to the data of security risks are unstructured short texts with the operation of the enterprise,including the data recorded in the platform presents the characteristics of complex data content,large data scale,and non-standard data records.Moreover,due to the lack of an effective text analysis model,a small part of the security risk data is only used for simple analysis such as report analysis and data statistics,whereas more data is stored in a secure big data platform.Thus, the data did not play a guiding role in production,resulting in a waste of these valuable data resources.In order to explore the internal relationship between hidden danger data and the rule of hidden danger occurrence,based on big data analysis technology,this paper constructed a multi-dimensional analysis model of mine safety hidden danger.We analyzed the distribution law of hidden danger in two dimensions of time and space,used the topic mining model to classify hidden danger information,and obtained 13 hidden danger topics, using association rules to mine hidden danger.The model explores the internal relationship between different hidden dangers and uses an R programming language to visualize the above results.The results made full use of the mine hidden danger data and avoided the waste of data resources through the analysis and research of the hidden danger with a certain guiding value for preventing mine accidents. KEY WORDS mine safety;text mining;data of hidden danger;data analysis;data visualization 收稿日期：2020-10-23 基金项目：国家自然科学基金资助项目(52074022)：中央高校基本科研业务费专项资金资助项目(FRF-TP.20-001A1)

基于文本挖掘的矿山安全隐患大数据分析与可视化郭对明1,2)，李国清1,2) 苣，胡乃联1,2)，侯杰1,2) 1) 北京科技大学土木与资源工程学院，北京 100083 2) 金属矿山高效开采与安全教育部重点实验室，北京 100083 苣通信作者， E-mail: qqlee@ustb.edu.cn 摘要基于大数据分析技术，构建了矿山安全隐患多维度分析模型，分析了隐患在时间和空间两个维度上的分布规律；利用主题挖掘模型将众多隐患信息归类，得到了 13 个隐患主题；利用关联规则挖掘模型探究了不同隐患之间的内在联系，并利用 R 编程语言对上述结果进行可视化展示. 通过对安全隐患的分析研究不仅充分利用了矿山隐患数据，避免了数据资源的浪费，同时也对矿山井下事故预防有一定的指导价值. 关键词矿山安全；文本挖掘；隐患数据；大数据分析；可视化分类号 TD77.1 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming1,2) ，LI Guo-qing1,2) 苣，HU Nai-lian1,2) ，HOU Jie1,2) 1) School of Civil and Resource Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of High-Efficient Mining and Safety of Metal Mines, Ministry of Education, Beijing 100083, China 苣 Corresponding author, E-mail: qqlee@ustb.edu.cn ABSTRACT Compared with other production industries, metal mine is recognized as a high accident rate and the highest casualty rate due to the bad working environment. Therefore, safety production is the key concern of mining enterprises. With the attention of enterprises to safety problems and the increasing improvement of mine safety management system, many mines have established secure big data platform to effectively manage production and ensure the safety of underground operation, receiving the safety hazard information from daily safety inspection into the platform. However, due to the data of security risks are unstructured short texts with the operation of the enterprise, including the data recorded in the platform presents the characteristics of complex data content, large data scale, and non-standard data records. Moreover, due to the lack of an effective text analysis model, a small part of the security risk data is only used for simple analysis such as report analysis and data statistics, whereas more data is stored in a secure big data platform. Thus, the data did not play a guiding role in production, resulting in a waste of these valuable data resources. In order to explore the internal relationship between hidden danger data and the rule of hidden danger occurrence, based on big data analysis technology, this paper constructed a multi-dimensional analysis model of mine safety hidden danger. We analyzed the distribution law of hidden danger in two dimensions of time and space, used the topic mining model to classify hidden danger information, and obtained 13 hidden danger topics, using association rules to mine hidden danger. The model explores the internal relationship between different hidden dangers and uses an R programming language to visualize the above results. The results made full use of the mine hidden danger data and avoided the waste of data resources through the analysis and research of the hidden danger with a certain guiding value for preventing mine accidents. KEY WORDS mine safety；text mining；data of hidden danger；data analysis；data visualization 收稿日期: 2020−10−23 基金项目: 国家自然科学基金资助项目（52074022）；中央高校基本科研业务费专项资金资助项目（FRF-TP-20-001A1）工程科学学报，第 44 卷，第 3 期：328−338，2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 328−338, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004; http://cje.ustb.edu.cn

郭对明等：基于文本挖掘的矿山安全隐患大数据分析与可视化 329 金属矿山由于作业条件复杂、劳动环境恶劣，模大、不规范等特征.据数据显示，矿山一年的数被公认为是事故高发且伤亡率最高的行业之一山据量可达上百GBI90.虽然大数据平台为安全隐因此，安全生产成为矿山企业永恒的主题，安全隐患数据提供了存储平台，但是由于缺少安全隐患患管理也受到了国家和企业的重视-]随着矿山分析模型，在数据的分析利用方面存在短板P,大安全管理体系日益完善，针对事故发生机理在人量安全数据只是用于完成简单的问题处理、报表类可控范围内对安全隐患进行及时的辨识、处理分析和数据统计，导致这些有价值的信息生命周与监控是矿山安全生产管理的重要手段.对不同期很短暂，在完成隐患排查后即以分散化、无序化的隐患数据有不同的辨识分析方法，Martin和的形式存储，成为历史数据，未能发挥这些数据对 Morris提出建立被控过程模型，通过数学模型将研安全生产的指导作用，从而导致上述海量数据的究对象的可测信息和通过模型表达的先验信息进浪费.另外，矿山安全隐患数据的记录内容较短，行比较，对残差结果进行分析处理，完成了对安全每条数据的有效信息少，具有明显的短文本特征，隐患的确定，通过利用故障关系的先验模型建立所以选择适用于短文本挖掘的分析方法构建数据知识模型，利用被监控对象的定性描述建立定性挖掘模型，从多角度探究隐患数据的内在联系，借模型，从而完成了对安全隐患的定位与识别问助可视化手段对挖掘结果进行可视化展示，指导 Dunia等提出在描述对象的精确性及建模的可矿山安全隐患排查治理是当前矿山企业隐患治理行性上，介于以上两种方法之间，通过相关的频谱中亟待解决的问题分析、主元分析、小波变换等工具，直接分析可测因此，本文在数据预处理的基础上对隐患信信号，提取诸如方差、幅值、频率等特征值，从而息进行多维度辨识，得到隐患在时间和空间两个检测安全隐患的存在，李季等)提出了完整、科学维度上的分布规律：针对矿山隐患信息的短文本的危险源信息和隐患辨识数据库，然后结合矿山特征，采用双词主题模型(Biterm topic model,.BTM) 监测系统和人工监测提供的实时数据，完成了安对安全隐患进行主题挖掘，得到了13个隐患主全隐患的捕捉与辨别，秦文静通过事故树原理，题，有效避免了潜在狄利克雷分配模型(Latent 建立煤矿井下瓦斯爆炸危险源事故树，对煤矿瓦 Dirichlet allocation,.LDA)算法不适用于短文本挖斯爆炸危险源进行辨识.张宝隆等9提出了基于掘的不足；最后通过Apriori算法对隐患数据进行本体的隐患辨识排查系统构建的方法，通过对煤了关联规则挖掘，得到了多条有效的关联规则，并矿隐患知识分析，建立了隐患本体层次结构，定义对其进行了可视化展示类的对象和属性，构建了煤矿事故隐患辨识排查 1 基于大数据的安全隐患分析模型系统模型，从而解决了煤矿事故排查效率低，排查不到位等问题构建安全隐患分析模型，首先对隐患数据进为了有效分析安全隐患信息，有学者尝试了行预处理，然后基于大数据分析方对隐患信息进将大数据分析技术应用到矿山安全管理中.马小行多维度分析、主题挖掘、关联规则挖掘等，具体平和代伟o通过总结大数据技术在煤炭工业中的流程如图1所示应用，分析了大数据在煤矿设备故障诊断、灾害事 11数据预处理故预警与防治等方面的可行性.孙继平山运用大由于矿山安全隐患数据记录的内容繁杂且在数据技术实现了煤矿事故灾害的超前预警.谭章记录过程中缺乏规范性，因此为了保证文本挖掘禄等四借助文本分析方法，通过对隐患信息的预的效果，在进行文本挖掘之前需要对数据进行清处理，得到隐患事故高频词，进一步指导隐患治洗.从矿山安全管理系统中导出的数据包含很多理.钱宇虹)、石记斌和石记红4、雷煜斌等采内容，比如责任人、责任单位等内容对文本挖掘不用数据挖掘技术，应用Apriori算法和FP-growth算产生影响，因此将这些信息删除，仅保留数据中时法分析瓦斯与地质构造、煤结构等因素间的关联间、地点、隐患问题部分，用以降低文本挖掘维关系度，提高文本挖掘处理的速度.同时对记录中不规随着计算机的发展，很多矿山搭建了安全大范格式及错别字进行纠正.数据清洗完成后用数据平台或相应的管理系统，并将安全检查 R语言自带的jiebaR包对数据进行分词，分词过程中发现的隐患信息录入到大数据平台中，随着企可以理解为根据词库将文本分割成零碎的词汇，业运行，平台中会积累海量以安全检查信息为主而这些词汇就是数据文本的特征项，由矿山安全的非结构化文本数据，而且数据具有内容繁杂、规隐患数据包含大量的采矿专业词汇，而这些专业

金属矿山由于作业条件复杂、劳动环境恶劣，被公认为是事故高发且伤亡率最高的行业之一[1] . 因此，安全生产成为矿山企业永恒的主题，安全隐患管理也受到了国家和企业的重视[2−3] . 随着矿山安全管理体系日益完善，针对事故发生机理在人类可控范围内对安全隐患进行及时的辨识、处理与监控是矿山安全生产管理的重要手段. 对不同的隐患数据有不同的辨识分析方法， Martin 和 Morris 提出建立被控过程模型，通过数学模型将研究对象的可测信息和通过模型表达的先验信息进行比较，对残差结果进行分析处理，完成了对安全隐患的确定[4] ，通过利用故障关系的先验模型建立知识模型，利用被监控对象的定性描述建立定性模型，从而完成了对安全隐患的定位与识别[5] . Dunia 等[6] 提出在描述对象的精确性及建模的可行性上，介于以上两种方法之间，通过相关的频谱分析、主元分析、小波变换等工具，直接分析可测信号，提取诸如方差、幅值、频率等特征值，从而检测安全隐患的存在. 李季等[7] 提出了完整、科学的危险源信息和隐患辨识数据库，然后结合矿山监测系统和人工监测提供的实时数据，完成了安全隐患的捕捉与辨别. 秦文静[8] 通过事故树原理，建立煤矿井下瓦斯爆炸危险源事故树，对煤矿瓦斯爆炸危险源进行辨识. 张宝隆等[9] 提出了基于本体的隐患辨识排查系统构建的方法，通过对煤矿隐患知识分析，建立了隐患本体层次结构，定义类的对象和属性，构建了煤矿事故隐患辨识排查系统模型，从而解决了煤矿事故排查效率低，排查不到位等问题. 为了有效分析安全隐患信息，有学者尝试了将大数据分析技术应用到矿山安全管理中. 马小平和代伟[10] 通过总结大数据技术在煤炭工业中的应用，分析了大数据在煤矿设备故障诊断、灾害事故预警与防治等方面的可行性. 孙继平[11] 运用大数据技术实现了煤矿事故灾害的超前预警. 谭章禄等[12] 借助文本分析方法，通过对隐患信息的预处理，得到隐患事故高频词，进一步指导隐患治理. 钱宇虹[13]、石记斌和石记红[14]、雷煜斌等[15] 采用数据挖掘技术，应用 Apriori 算法和 FP-growth 算法分析瓦斯与地质构造、煤结构等因素间的关联关系. 随着计算机的发展，很多矿山搭建了安全大数据平台或相应的管理系统[16−18] ，并将安全检查中发现的隐患信息录入到大数据平台中. 随着企业运行，平台中会积累海量以安全检查信息为主的非结构化文本数据，而且数据具有内容繁杂、规模大、不规范等特征. 据数据显示，矿山一年的数据量可达上百 GB[19−20] . 虽然大数据平台为安全隐患数据提供了存储平台，但是由于缺少安全隐患分析模型，在数据的分析利用方面存在短板[21] ，大量安全数据只是用于完成简单的问题处理、报表分析和数据统计，导致这些有价值的信息生命周期很短暂，在完成隐患排查后即以分散化、无序化的形式存储，成为历史数据，未能发挥这些数据对安全生产的指导作用，从而导致上述海量数据的浪费. 另外，矿山安全隐患数据的记录内容较短，每条数据的有效信息少，具有明显的短文本特征，所以选择适用于短文本挖掘的分析方法构建数据挖掘模型，从多角度探究隐患数据的内在联系，借助可视化手段对挖掘结果进行可视化展示，指导矿山安全隐患排查治理是当前矿山企业隐患治理中亟待解决的问题. 因此，本文在数据预处理的基础上对隐患信息进行多维度辨识，得到隐患在时间和空间两个维度上的分布规律；针对矿山隐患信息的短文本特征，采用双词主题模型（Biterm topic model, BTM）对安全隐患进行主题挖掘，得到了 13 个隐患主题，有效避免了潜在狄利克雷分配模型（ Latent Dirichlet allocation, LDA）算法不适用于短文本挖掘的不足；最后通过 Apriori 算法对隐患数据进行了关联规则挖掘，得到了多条有效的关联规则，并对其进行了可视化展示. 1 基于大数据的安全隐患分析模型构建安全隐患分析模型，首先对隐患数据进行预处理，然后基于大数据分析方对隐患信息进行多维度分析、主题挖掘、关联规则挖掘等，具体流程如图 1 所示. 1.1 数据预处理由于矿山安全隐患数据记录的内容繁杂且在记录过程中缺乏规范性，因此为了保证文本挖掘的效果，在进行文本挖掘之前需要对数据进行清洗. 从矿山安全管理系统中导出的数据包含很多内容，比如责任人、责任单位等内容对文本挖掘不产生影响，因此将这些信息删除，仅保留数据中时间、地点、隐患问题部分，用以降低文本挖掘维度，提高文本挖掘处理的速度. 同时对记录中不规范格式及错别字进行纠正. 数据清洗完成后用 R 语言自带的 jiebaR 包对数据进行分词，分词过程可以理解为根据词库将文本分割成零碎的词汇，而这些词汇就是数据文本的特征项，由矿山安全隐患数据包含大量的采矿专业词汇，而这些专业郭对明等：基于文本挖掘的矿山安全隐患大数据分析与可视化 · 329 ·

330 工程科学学报，第44卷，第3期 Data cleaning Data preprocessing Tokenization Stop words removal Analysis on time distribution of Multi dimensional security risks Statistics of high hidden danger frequency words identification Analysis on spatial distribution of Force atlas graphic layout algorithm security risks BTM topic mining model Topic mining of Gibbs sampling security risks algorithm Perplexity Apriori association rules Association mining mining algorithm of security risks Visual display 图1基于大数据分析的隐患分析模型流程 Fig.I Hidden danger analysis model process based on big data analysis 词汇并不包含在R语言的词库中，为了提高数据的Force Atlas图形布局算法，对隐患进行可视化分词的准确性，再分词前添加自定义词库，词库内表示，得到安全隐患时间分布图和空间分布图容来源于采矿工程、矿井通风、矿山工程、矿山应 1.3隐患信息主题挖掘急救援等专业词汇.分词结束后数据中依然存在矿山安全隐患数据的数量庞大而且所涉及的频率较高但没有实际意义的词，即停用词，因此需种类复杂多样，在实际管理过程中很难通过人工要对分词结束的数据去停用词，目的是对文本的完成对隐患数据按照隐患类别进行分类统计，更特征项降维减噪，提高文本挖掘工具的处理速度难以发现安全隐患问题中隐藏的隐患主题.因此，与处理能力通过大数据分析中的主题挖掘算法构建矿山隐患 1.2隐患信息多维度辨识信息的主题挖掘模型，对井下安全隐患数据进行地下矿山安全隐患的发生不是杂乱无序的，深层次分析，通过将众多的隐患归类，获得能够反随着企业对隐患的治理，造成某些安全隐患数量映井下生产安全问题的隐患主题，更加有针对性随着时间的延长呈现出一定的波动起伏规律.为的指导安全管理工作的开展了分析安全隐患的变化，在数据预处理的基础上，文本的主题挖掘是大数据分析中重要的组成按照年份统计该年内出现频率较高的隐患词，对部分，该方法可以将众多的数据按照一定的规则高频词按时间顺序进行分析，得到历年隐患数量进行高度概括，按照不同的隐患内容划分为不同随时间变化的曲线，从而在时间维度上对隐患的的隐患主题.BTM主题挖掘模型四]与传统的发展变化进行把握.同样，隐患并不是在井下任何 LDA主题挖掘模型1的相似点在于，两种主题算地点都存在，一些特定的隐患会在某些关键地点法的先验分布均服从狄利克雷分布(Dirichlet 出现且出现的次数较高，为了明确井下隐患发生 distribution,Dir(a),区别在于BTM是对词对进行的重点区域，指导企业对危险区域的排查，通过统建模而不是单独的词语，然后利用共轭分布对主计隐患数据中的地点并提取频繁出现的地点，对题模型进行推理.该模型通过对短文本语料进行高频地点对应的隐患信息进行分析，得到该地点词对扩充，改善了短文本建模的稀疏问题.该模型可能发生的相关隐患，的概率模型如图2所示为了更加直观的展示安全隐患在时间和空间上图2中，Z为一个主题，k为维度，0为短文两个维度上的分布规律，利用大数据分析方法中本集合中k个主题的分布，4为主题维度k的词汇

词汇并不包含在 R 语言的词库中，为了提高数据分词的准确性，再分词前添加自定义词库，词库内容来源于采矿工程、矿井通风、矿山工程、矿山应急救援等专业词汇. 分词结束后数据中依然存在频率较高但没有实际意义的词，即停用词，因此需要对分词结束的数据去停用词，目的是对文本的特征项降维减噪，提高文本挖掘工具的处理速度与处理能力. 1.2 隐患信息多维度辨识地下矿山安全隐患的发生不是杂乱无序的，随着企业对隐患的治理，造成某些安全隐患数量随着时间的延长呈现出一定的波动起伏规律. 为了分析安全隐患的变化，在数据预处理的基础上，按照年份统计该年内出现频率较高的隐患词，对高频词按时间顺序进行分析，得到历年隐患数量随时间变化的曲线，从而在时间维度上对隐患的发展变化进行把握. 同样，隐患并不是在井下任何地点都存在，一些特定的隐患会在某些关键地点出现且出现的次数较高，为了明确井下隐患发生的重点区域，指导企业对危险区域的排查，通过统计隐患数据中的地点并提取频繁出现的地点，对高频地点对应的隐患信息进行分析，得到该地点可能发生的相关隐患. 为了更加直观的展示安全隐患在时间和空间两个维度上的分布规律，利用大数据分析方法中的 Force Atlas 图形布局算法，对隐患进行可视化表示，得到安全隐患时间分布图和空间分布图. 1.3 隐患信息主题挖掘矿山安全隐患数据的数量庞大而且所涉及的种类复杂多样，在实际管理过程中很难通过人工完成对隐患数据按照隐患类别进行分类统计，更难以发现安全隐患问题中隐藏的隐患主题. 因此，通过大数据分析中的主题挖掘算法构建矿山隐患信息的主题挖掘模型，对井下安全隐患数据进行深层次分析，通过将众多的隐患归类，获得能够反映井下生产安全问题的隐患主题，更加有针对性的指导安全管理工作的开展. 文本的主题挖掘是大数据分析中重要的组成部分，该方法可以将众多的数据按照一定的规则进行高度概括，按照不同的隐患内容划分为不同的隐患主题 . BTM 主题挖掘模型 [22] 与传统的 LDA 主题挖掘模型[23] 的相似点在于，两种主题算法的先验分布均服从狄利克雷分布 (Dirichlet distribution, Dir(α))，区别在于 BTM 是对词对进行建模而不是单独的词语，然后利用共轭分布对主题模型进行推理. 该模型通过对短文本语料进行词对扩充，改善了短文本建模的稀疏问题. 该模型的概率模型如图 2 所示. 上图 2 中，Z 为一个主题，k 为维度，θ 为短文本集合中 k 个主题的分布，φk 为主题维度 k 的词汇 Data preprocessing Data cleaning Tokenization Stop words removal Force atlas graphic layout algorithm BTM topic mining model Gibbs sampling algorithm Perplexity Visual display Statistics of high frequency words Topic mining of security risks Apriori association rules mining algorithm Association mining of security risks Multi dimensional hidden danger identification Analysis on time distribution of security risks Analysis on spatial distribution of security risks 图 1 基于大数据分析的隐患分析模型流程 Fig.1 Hidden danger analysis model process based on big data analysis · 330 · 工程科学学报，第 44 卷，第 3 期

郭对明等：基于文本挖掘的矿山安全隐患大数据分析与可视化 331· 的经典算法之一242，该算法通过构建候选集和建立规则挖掘频繁项集，其核心是基于两阶段频集思想的递推算法.Apriori算法对关联规则的挖掘主要分为两个步骤，首先要构建一组最小支持度的频繁项，然后根据所建立的频繁项集构造关联规则，具体步骤如图3所示 Construction of mine safety hazard data set D 图2BTM概率图模型 Proposed minimum support Fig.2 BTM probability graph model (min_supp)and minimum confidence(min conf) 分布，NB为文档数目，a、B为词对与主题分布和主 Scan the data set and Candidate 1 itemsets C count each item 题与单词分布的狄利克雷分布的超参数.模型的计算过程如下所示： Y ①对于每一个主题Z,其主题维度下的词分布 Prune min supp Frequent 1 itemsets L 为p=Dir(B): ②对于短文本语料集，确定一个全局的主题 Connect Candidate 2 itemsets C 分布0=Dir(B: ③对于词对W<w,w>W中每一个词，执行： Frequent k itemsets La 从全局主题分布0中，抽取一个主题Z,即￥ Candidate +1 Z=Mult(0); Connect itemsets C+ 从被抽取的主题中，抽取两个词w,和w,:其中每个词对都是从一个独立主题中产生，即"，w于 N Y Frequent +1 Mult(o). Prune Support of item Sets≥min_supp itemsets La BTM模型采用Gibbs抽样算法进行采样，主题分布的最终化简如下式所示 L=Empty set (nwik+B)(nwk+B) P(ZIZ-w.W.a.B)c(n.+a)- (1) (∑wmwk+BM)2 Output association rules (confidence>min_supp) 式中：Z为除去当前词对的主题分布，Z为主题， n:为分配到主题Z的次数，nwk、nwk、nwk分别为 Calculate the lift of association rules and 词对w、w、W分配到主题Z的次数，M为语料集 expla in the rules 中不同的词语数图3基于Apriori算法矿山安全隐患关联规则挖掘流程之后根据公式(2)和公式(3)对超参数进行估计 Fig.3 Mining process of association rules for mine safety hazard based 0s及+B on Apriori algorithm (2) B+Ka 2基于大数据隐患分析模型应用与结果分析 nwkz +B P=∑wnt+ME (3) 2.1数据描述与处理 1.4隐患信息关联规则挖掘本文以某矿山的GIS安全管理系统中抽取得导致矿山安全事故产生的原因往往不止一到安全隐患排查数据为研究对象，该数据从2013 种，多种安全隐患的出现增加了矿山安全事故发年至2019年，共计34000条，记录了隐患发生的生的概率，这表明安全隐患并不是孤立存在，他们时间、位置、隐患单位、具体问题、整改意见等往往存在着一定的联系.因此分析不同隐患之间内容的内在联系，理清隐患之间的因果关系，对有效治对收集的隐患数据进行预处理，经过分词和理隐患，预防隐患产生起到事半功倍的作用去停用词后提取词频前200的高频词汇作为有效 Apriori算法是挖掘布尔关联规则频繁项目集结果（最小词频大于200），部分高频词如表1所示

分布，NB 为文档数目，α、β 为词对与主题分布和主题与单词分布的狄利克雷分布的超参数. 模型的计算过程如下所示： ① 对于每一个主题 Z，其主题维度下的词分布为 φ=Dir(β)； ② 对于短文本语料集，确定一个全局的主题分布 θ=Dir(β)； ③ 对于词对 W<wi，wj>W 中每一个词，执行：从全局主题分布 θ 中，抽取一个主题 Z，即 Z=Mult(θ)；从被抽取的主题中，抽取两个词 wi 和 wj；其中每个词对都是从一个独立主题中产生，即 wi，wj= Mult(φ). BTM 模型采用 Gibbs 抽样算法进行采样，主题分布的最终化简如下式所示. P(Z|Z−w,W,α, β) ∝ (nz +α) (nwi |z +β)(nwj |z +β) ( ∑ wnw|z +βM) 2 （1） nw|z nwi |z nwj |z 式中： Z−w 为除去当前词对的主题分布，Z 为主题， nz 为分配到主题 Z 的次数，、、分别为词对 w、wi、wj 分配到主题 Z 的次数，M 为语料集中不同的词语数. 之后根据公式 (2) 和公式 (3) 对超参数进行估计. θ = nz +β B+Kα （2） φ = nw|z +β ∑ w nw|z + Mβ （3） 1.4 隐患信息关联规则挖掘导致矿山安全事故产生的原因往往不止一种，多种安全隐患的出现增加了矿山安全事故发生的概率，这表明安全隐患并不是孤立存在，他们往往存在着一定的联系. 因此分析不同隐患之间的内在联系，理清隐患之间的因果关系，对有效治理隐患，预防隐患产生起到事半功倍的作用. Apriori 算法是挖掘布尔关联规则频繁项目集的经典算法之一[24−25] ，该算法通过构建候选集和建立规则挖掘频繁项集，其核心是基于两阶段频集思想的递推算法. Apriori 算法对关联规则的挖掘主要分为两个步骤，首先要构建一组最小支持度的频繁项，然后根据所建立的频繁项集构造关联规则，具体步骤如图 3 所示. Construction of mine safety hazard data set D Proposed minimum support (min_supp) and minimum confidence (min_conf) Scan the data set and count each item ... N Y Candidate 1 itemsets C1 Frequent 1 itemsets L1 Support of item sets≥min_supp Prune Frequent k itemsets Lk Connect Candidate 2 itemsets C2 Connect Candidate k+1 itemsets Ck+1 Support of item sets≥min_supp Frequent k+1 itemsets Lk+1 Prune L=Empty set Output association rules (confidence>min_supp) Calculate the lift of association rules and expla in the rules N Y 图 3 基于 Apriori 算法矿山安全隐患关联规则挖掘流程 Fig.3 Mining process of association rules for mine safety hazard based on Apriori algorithm 2 基于大数据隐患分析模型应用与结果分析 2.1 数据描述与处理本文以某矿山的 GIS 安全管理系统中抽取得到安全隐患排查数据为研究对象，该数据从 2013 年至 2019 年，共计 34000 条，记录了隐患发生的时间、位置、隐患单位、具体问题、整改意见等内容. 对收集的隐患数据进行预处理，经过分词和去停用词后提取词频前 200 的高频词汇作为有效结果 (最小词频大于 200)，部分高频词如表 1 所示. α θ β φk wi wj NB k Z 图 2 BTM 概率图模型 Fig.2 BTM probability graph model 郭对明等：基于文本挖掘的矿山安全隐患大数据分析与可视化 · 331 ·

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录