工程科学学报 Chinese Journal of Engineering 基于文本挖据的矿山安全隐患大数据分析与可视化 郭对明李国清胡乃联侯杰 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming.LI Guo-qing.HU Nai-lian,HOU Jie 引用本文: 郭对明,李国清,胡乃联,侯杰.基于文本挖掘的矿山安全隐患大数据分析与可视化工程科学学报,2022,44(3):328-338. doi10.13374j.issn2095-9389.2020.10.23.004 GUO Dui-ming.LI Guo-qing.HU Nai-lian,HOU Jie.Big data analysis and visualization of potential hazardous risks of the mine based on text mining[J].Chinese Journal of Engineering,2022,44(3):328-338.doi:10.13374/j.issn2095-9389.2020.10.23.004 在线阅读View online::htps:/doi.org/10.13374.issn2095-9389.2020.10.23.004 您可能感兴趣的其他文章 Articles you may be interested in 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报.2021,432:179 https:1doi.org10.13374.issn2095-9389.2020.07.21.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报.2018.40(11):1373htps:/doi.org10.13374.issn2095-9389.2018.11.011 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报.2017,394:611htps:1doi.0g10.13374.issn2095-9389.2017.04.017 基于空间近邻关系的非平衡数据重采样算法 Resampling algorithm for imbalanced data based on their neighbor relationship 工程科学学报.2021,43(6:862 https:ldoi.org10.13374j.issn2095-9389.2020.04.05.002 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报.2020,42(9%:1209 https:/doi.org10.13374.issn2095-9389.2019.10.09.003 基于索引存根表的云存储数据完整性审计 Cloud storage data integrity audit based on an indexstub table 工程科学学报.2020,42(4:490 https:/ldoi.org/10.13374.issn2095-9389.2019.09.15.008
基于文本挖掘的矿山安全隐患大数据分析与可视化 郭对明 李国清 胡乃联 侯杰 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming, LI Guo-qing, HU Nai-lian, HOU Jie 引用本文: 郭对明, 李国清, 胡乃联, 侯杰. 基于文本挖掘的矿山安全隐患大数据分析与可视化[J]. 工程科学学报, 2022, 44(3): 328-338. doi: 10.13374/j.issn2095-9389.2020.10.23.004 GUO Dui-ming, LI Guo-qing, HU Nai-lian, HOU Jie. Big data analysis and visualization of potential hazardous risks of the mine based on text mining[J]. Chinese Journal of Engineering, 2022, 44(3): 328-338. doi: 10.13374/j.issn2095-9389.2020.10.23.004 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004 您可能感兴趣的其他文章 Articles you may be interested in 油气资源开发的大数据智能平台及应用分析 Big data intelligent platform and application analysis for oil and gas resource development 工程科学学报. 2021, 43(2): 179 https://doi.org/10.13374/j.issn2095-9389.2020.07.21.001 基于CART决策树的冲压成形仿真数据挖掘 Data mining of deep drawing simulation results based on CART decision tree theory 工程科学学报. 2018, 40(11): 1373 https://doi.org/10.13374/j.issn2095-9389.2018.11.011 函数型数据分析与优化极限学习机结合的弹药传输机械臂参数辨识 Parameter identification of a shell transfer arm using FDA and optimized ELM 工程科学学报. 2017, 39(4): 611 https://doi.org/10.13374/j.issn2095-9389.2017.04.017 基于空间近邻关系的非平衡数据重采样算法 Resampling algorithm for imbalanced data based on their neighbor relationship 工程科学学报. 2021, 43(6): 862 https://doi.org/10.13374/j.issn2095-9389.2020.04.05.002 基于近邻的不均衡数据聚类算法 Clustering algorithm for imbalanced data based on nearest neighbor 工程科学学报. 2020, 42(9): 1209 https://doi.org/10.13374/j.issn2095-9389.2019.10.09.003 基于索引存根表的云存储数据完整性审计 Cloud storage data integrity audit based on an indexstub table 工程科学学报. 2020, 42(4): 490 https://doi.org/10.13374/j.issn2095-9389.2019.09.15.008
工程科学学报.第44卷.第3期:328-338.2022年3月 Chinese Journal of Engineering,Vol.44,No.3:328-338,March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004;http://cje.ustb.edu.cn 基于文本挖掘的矿山安全隐患大数据分析与可视化 郭对明,2),李国清1,2)区,胡乃联1,2),侯杰1,2) 1)北京科技大学土木与资源工程学院.北京1000832)金属矿山高效开采与安全教育部重点实验室,北京100083 ☒通信作者,E-mail:qqlee@ustb.edu.cn 摘要基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利 用主题挖掘模型将众多隐患信息归类,得到了13个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利 用R编程语言对上述结果进行可视化展示.通过对安全隐患的分析研究不仅充分利用了矿山隐患数据,避免了数据资源的 浪费,同时也对矿山井下事故预防有一定的指导价值 关键词矿山安全:文本挖掘:隐患数据:大数据分析:可视化 分类号TD77.1 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming,LI Guo-qing HU Nai-lian2),HOU Jie2 1)School of Civil and Resource Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Key Laboratory of High-Efficient Mining and Safety of Metal Mines,Ministry of Education,Beijing 100083,China Corresponding author,E-mail:qqlee@ustb.edu.cn ABSTRACT Compared with other production industries,metal mine is recognized as a high accident rate and the highest casualty rate due to the bad working environment.Therefore,safety production is the key concern of mining enterprises.With the attention of enterprises to safety problems and the increasing improvement of mine safety management system,many mines have established secure big data platform to effectively manage production and ensure the safety of underground operation,receiving the safety hazard information from daily safety inspection into the platform.However,due to the data of security risks are unstructured short texts with the operation of the enterprise,including the data recorded in the platform presents the characteristics of complex data content,large data scale,and non-standard data records.Moreover,due to the lack of an effective text analysis model,a small part of the security risk data is only used for simple analysis such as report analysis and data statistics,whereas more data is stored in a secure big data platform.Thus, the data did not play a guiding role in production,resulting in a waste of these valuable data resources.In order to explore the internal relationship between hidden danger data and the rule of hidden danger occurrence,based on big data analysis technology,this paper constructed a multi-dimensional analysis model of mine safety hidden danger.We analyzed the distribution law of hidden danger in two dimensions of time and space,used the topic mining model to classify hidden danger information,and obtained 13 hidden danger topics, using association rules to mine hidden danger.The model explores the internal relationship between different hidden dangers and uses an R programming language to visualize the above results.The results made full use of the mine hidden danger data and avoided the waste of data resources through the analysis and research of the hidden danger with a certain guiding value for preventing mine accidents. KEY WORDS mine safety;text mining;data of hidden danger;data analysis;data visualization 收稿日期:2020-10-23 基金项目:国家自然科学基金资助项目(52074022):中央高校基本科研业务费专项资金资助项目(FRF-TP.20-001A1)
基于文本挖掘的矿山安全隐患大数据分析与可视化 郭对明1,2),李国清1,2) 苣,胡乃联1,2),侯 杰1,2) 1) 北京科技大学土木与资源工程学院,北京 100083 2) 金属矿山高效开采与安全教育部重点实验室,北京 100083 苣通信作者, E-mail: qqlee@ustb.edu.cn 摘 要 基于大数据分析技术,构建了矿山安全隐患多维度分析模型,分析了隐患在时间和空间两个维度上的分布规律;利 用主题挖掘模型将众多隐患信息归类,得到了 13 个隐患主题;利用关联规则挖掘模型探究了不同隐患之间的内在联系,并利 用 R 编程语言对上述结果进行可视化展示. 通过对安全隐患的分析研究不仅充分利用了矿山隐患数据,避免了数据资源的 浪费,同时也对矿山井下事故预防有一定的指导价值. 关键词 矿山安全;文本挖掘;隐患数据;大数据分析;可视化 分类号 TD77.1 Big data analysis and visualization of potential hazardous risks of the mine based on text mining GUO Dui-ming1,2) ,LI Guo-qing1,2) 苣 ,HU Nai-lian1,2) ,HOU Jie1,2) 1) School of Civil and Resource Engineering, University of Science and Technology Beijing, Beijing 100083, China 2) Key Laboratory of High-Efficient Mining and Safety of Metal Mines, Ministry of Education, Beijing 100083, China 苣 Corresponding author, E-mail: qqlee@ustb.edu.cn ABSTRACT Compared with other production industries, metal mine is recognized as a high accident rate and the highest casualty rate due to the bad working environment. Therefore, safety production is the key concern of mining enterprises. With the attention of enterprises to safety problems and the increasing improvement of mine safety management system, many mines have established secure big data platform to effectively manage production and ensure the safety of underground operation, receiving the safety hazard information from daily safety inspection into the platform. However, due to the data of security risks are unstructured short texts with the operation of the enterprise, including the data recorded in the platform presents the characteristics of complex data content, large data scale, and non-standard data records. Moreover, due to the lack of an effective text analysis model, a small part of the security risk data is only used for simple analysis such as report analysis and data statistics, whereas more data is stored in a secure big data platform. Thus, the data did not play a guiding role in production, resulting in a waste of these valuable data resources. In order to explore the internal relationship between hidden danger data and the rule of hidden danger occurrence, based on big data analysis technology, this paper constructed a multi-dimensional analysis model of mine safety hidden danger. We analyzed the distribution law of hidden danger in two dimensions of time and space, used the topic mining model to classify hidden danger information, and obtained 13 hidden danger topics, using association rules to mine hidden danger. The model explores the internal relationship between different hidden dangers and uses an R programming language to visualize the above results. The results made full use of the mine hidden danger data and avoided the waste of data resources through the analysis and research of the hidden danger with a certain guiding value for preventing mine accidents. KEY WORDS mine safety;text mining;data of hidden danger;data analysis;data visualization 收稿日期: 2020−10−23 基金项目: 国家自然科学基金资助项目(52074022);中央高校基本科研业务费专项资金资助项目(FRF-TP-20-001A1) 工程科学学报,第 44 卷,第 3 期:328−338,2022 年 3 月 Chinese Journal of Engineering, Vol. 44, No. 3: 328−338, March 2022 https://doi.org/10.13374/j.issn2095-9389.2020.10.23.004; http://cje.ustb.edu.cn
郭对明等:基于文本挖掘的矿山安全隐患大数据分析与可视化 329 金属矿山由于作业条件复杂、劳动环境恶劣, 模大、不规范等特征.据数据显示,矿山一年的数 被公认为是事故高发且伤亡率最高的行业之一山 据量可达上百GBI90.虽然大数据平台为安全隐 因此,安全生产成为矿山企业永恒的主题,安全隐 患数据提供了存储平台,但是由于缺少安全隐患 患管理也受到了国家和企业的重视-]随着矿山 分析模型,在数据的分析利用方面存在短板P,大 安全管理体系日益完善,针对事故发生机理在人 量安全数据只是用于完成简单的问题处理、报表 类可控范围内对安全隐患进行及时的辨识、处理 分析和数据统计,导致这些有价值的信息生命周 与监控是矿山安全生产管理的重要手段.对不同 期很短暂,在完成隐患排查后即以分散化、无序化 的隐患数据有不同的辨识分析方法,Martin和 的形式存储,成为历史数据,未能发挥这些数据对 Morris提出建立被控过程模型,通过数学模型将研 安全生产的指导作用,从而导致上述海量数据的 究对象的可测信息和通过模型表达的先验信息进 浪费.另外,矿山安全隐患数据的记录内容较短, 行比较,对残差结果进行分析处理,完成了对安全 每条数据的有效信息少,具有明显的短文本特征, 隐患的确定,通过利用故障关系的先验模型建立 所以选择适用于短文本挖掘的分析方法构建数据 知识模型,利用被监控对象的定性描述建立定性 挖掘模型,从多角度探究隐患数据的内在联系,借 模型,从而完成了对安全隐患的定位与识别问 助可视化手段对挖掘结果进行可视化展示,指导 Dunia等提出在描述对象的精确性及建模的可 矿山安全隐患排查治理是当前矿山企业隐患治理 行性上,介于以上两种方法之间,通过相关的频谱 中亟待解决的问题 分析、主元分析、小波变换等工具,直接分析可测 因此,本文在数据预处理的基础上对隐患信 信号,提取诸如方差、幅值、频率等特征值,从而 息进行多维度辨识,得到隐患在时间和空间两个 检测安全隐患的存在,李季等)提出了完整、科学 维度上的分布规律:针对矿山隐患信息的短文本 的危险源信息和隐患辨识数据库,然后结合矿山 特征,采用双词主题模型(Biterm topic model,.BTM) 监测系统和人工监测提供的实时数据,完成了安 对安全隐患进行主题挖掘,得到了13个隐患主 全隐患的捕捉与辨别,秦文静通过事故树原理, 题,有效避免了潜在狄利克雷分配模型(Latent 建立煤矿井下瓦斯爆炸危险源事故树,对煤矿瓦 Dirichlet allocation,.LDA)算法不适用于短文本挖 斯爆炸危险源进行辨识.张宝隆等9提出了基于 掘的不足;最后通过Apriori算法对隐患数据进行 本体的隐患辨识排查系统构建的方法,通过对煤 了关联规则挖掘,得到了多条有效的关联规则,并 矿隐患知识分析,建立了隐患本体层次结构,定义 对其进行了可视化展示 类的对象和属性,构建了煤矿事故隐患辨识排查 1 基于大数据的安全隐患分析模型 系统模型,从而解决了煤矿事故排查效率低,排查 不到位等问题 构建安全隐患分析模型,首先对隐患数据进 为了有效分析安全隐患信息,有学者尝试了 行预处理,然后基于大数据分析方对隐患信息进 将大数据分析技术应用到矿山安全管理中.马小 行多维度分析、主题挖掘、关联规则挖掘等,具体 平和代伟o通过总结大数据技术在煤炭工业中的 流程如图1所示 应用,分析了大数据在煤矿设备故障诊断、灾害事 11数据预处理 故预警与防治等方面的可行性.孙继平山运用大 由于矿山安全隐患数据记录的内容繁杂且在 数据技术实现了煤矿事故灾害的超前预警.谭章 记录过程中缺乏规范性,因此为了保证文本挖掘 禄等四借助文本分析方法,通过对隐患信息的预 的效果,在进行文本挖掘之前需要对数据进行清 处理,得到隐患事故高频词,进一步指导隐患治 洗.从矿山安全管理系统中导出的数据包含很多 理.钱宇虹)、石记斌和石记红4、雷煜斌等采 内容,比如责任人、责任单位等内容对文本挖掘不 用数据挖掘技术,应用Apriori算法和FP-growth算 产生影响,因此将这些信息删除,仅保留数据中时 法分析瓦斯与地质构造、煤结构等因素间的关联 间、地点、隐患问题部分,用以降低文本挖掘维 关系 度,提高文本挖掘处理的速度.同时对记录中不规 随着计算机的发展,很多矿山搭建了安全大 范格式及错别字进行纠正.数据清洗完成后用 数据平台或相应的管理系统,并将安全检查 R语言自带的jiebaR包对数据进行分词,分词过程 中发现的隐患信息录入到大数据平台中,随着企 可以理解为根据词库将文本分割成零碎的词汇, 业运行,平台中会积累海量以安全检查信息为主 而这些词汇就是数据文本的特征项,由矿山安全 的非结构化文本数据,而且数据具有内容繁杂、规 隐患数据包含大量的采矿专业词汇,而这些专业
金属矿山由于作业条件复杂、劳动环境恶劣, 被公认为是事故高发且伤亡率最高的行业之一[1] . 因此,安全生产成为矿山企业永恒的主题,安全隐 患管理也受到了国家和企业的重视[2−3] . 随着矿山 安全管理体系日益完善,针对事故发生机理在人 类可控范围内对安全隐患进行及时的辨识、处理 与监控是矿山安全生产管理的重要手段. 对不同 的隐患数据有不同的辨识分析方法 , Martin 和 Morris 提出建立被控过程模型,通过数学模型将研 究对象的可测信息和通过模型表达的先验信息进 行比较,对残差结果进行分析处理,完成了对安全 隐患的确定[4] ,通过利用故障关系的先验模型建立 知识模型,利用被监控对象的定性描述建立定性 模型 ,从而完成了对安全隐患的定位与识别[5] . Dunia 等[6] 提出在描述对象的精确性及建模的可 行性上,介于以上两种方法之间,通过相关的频谱 分析、主元分析、小波变换等工具,直接分析可测 信号,提取诸如方差、幅值、频率等特征值,从而 检测安全隐患的存在. 李季等[7] 提出了完整、科学 的危险源信息和隐患辨识数据库,然后结合矿山 监测系统和人工监测提供的实时数据,完成了安 全隐患的捕捉与辨别. 秦文静[8] 通过事故树原理, 建立煤矿井下瓦斯爆炸危险源事故树,对煤矿瓦 斯爆炸危险源进行辨识. 张宝隆等[9] 提出了基于 本体的隐患辨识排查系统构建的方法,通过对煤 矿隐患知识分析,建立了隐患本体层次结构,定义 类的对象和属性,构建了煤矿事故隐患辨识排查 系统模型,从而解决了煤矿事故排查效率低,排查 不到位等问题. 为了有效分析安全隐患信息,有学者尝试了 将大数据分析技术应用到矿山安全管理中. 马小 平和代伟[10] 通过总结大数据技术在煤炭工业中的 应用,分析了大数据在煤矿设备故障诊断、灾害事 故预警与防治等方面的可行性. 孙继平[11] 运用大 数据技术实现了煤矿事故灾害的超前预警. 谭章 禄等[12] 借助文本分析方法,通过对隐患信息的预 处理,得到隐患事故高频词,进一步指导隐患治 理. 钱宇虹[13]、石记斌和石记红[14]、雷煜斌等[15] 采 用数据挖掘技术,应用 Apriori 算法和 FP-growth 算 法分析瓦斯与地质构造、煤结构等因素间的关联 关系. 随着计算机的发展,很多矿山搭建了安全大 数据平台或相应的管理系统[16−18] ,并将安全检查 中发现的隐患信息录入到大数据平台中. 随着企 业运行,平台中会积累海量以安全检查信息为主 的非结构化文本数据,而且数据具有内容繁杂、规 模大、不规范等特征. 据数据显示,矿山一年的数 据量可达上百 GB[19−20] . 虽然大数据平台为安全隐 患数据提供了存储平台,但是由于缺少安全隐患 分析模型,在数据的分析利用方面存在短板[21] ,大 量安全数据只是用于完成简单的问题处理、报表 分析和数据统计,导致这些有价值的信息生命周 期很短暂,在完成隐患排查后即以分散化、无序化 的形式存储,成为历史数据,未能发挥这些数据对 安全生产的指导作用,从而导致上述海量数据的 浪费. 另外,矿山安全隐患数据的记录内容较短, 每条数据的有效信息少,具有明显的短文本特征, 所以选择适用于短文本挖掘的分析方法构建数据 挖掘模型,从多角度探究隐患数据的内在联系,借 助可视化手段对挖掘结果进行可视化展示,指导 矿山安全隐患排查治理是当前矿山企业隐患治理 中亟待解决的问题. 因此,本文在数据预处理的基础上对隐患信 息进行多维度辨识,得到隐患在时间和空间两个 维度上的分布规律;针对矿山隐患信息的短文本 特征,采用双词主题模型(Biterm topic model, BTM) 对安全隐患进行主题挖掘,得到了 13 个隐患主 题 ,有效避免了潜在狄利克雷分配模型( Latent Dirichlet allocation, LDA) 算法不适用于短文本挖 掘的不足;最后通过 Apriori 算法对隐患数据进行 了关联规则挖掘,得到了多条有效的关联规则,并 对其进行了可视化展示. 1 基于大数据的安全隐患分析模型 构建安全隐患分析模型,首先对隐患数据进 行预处理,然后基于大数据分析方对隐患信息进 行多维度分析、主题挖掘、关联规则挖掘等,具体 流程如图 1 所示. 1.1 数据预处理 由于矿山安全隐患数据记录的内容繁杂且在 记录过程中缺乏规范性,因此为了保证文本挖掘 的效果,在进行文本挖掘之前需要对数据进行清 洗. 从矿山安全管理系统中导出的数据包含很多 内容,比如责任人、责任单位等内容对文本挖掘不 产生影响,因此将这些信息删除,仅保留数据中时 间、地点、隐患问题部分,用以降低文本挖掘维 度,提高文本挖掘处理的速度. 同时对记录中不规 范格式及错别字进行纠正. 数据清洗完成后用 R 语言自带的 jiebaR 包对数据进行分词,分词过程 可以理解为根据词库将文本分割成零碎的词汇, 而这些词汇就是数据文本的特征项,由矿山安全 隐患数据包含大量的采矿专业词汇,而这些专业 郭对明等: 基于文本挖掘的矿山安全隐患大数据分析与可视化 · 329 ·
330 工程科学学报,第44卷,第3期 Data cleaning Data preprocessing Tokenization Stop words removal Analysis on time distribution of Multi dimensional security risks Statistics of high hidden danger frequency words identification Analysis on spatial distribution of Force atlas graphic layout algorithm security risks BTM topic mining model Topic mining of Gibbs sampling security risks algorithm Perplexity Apriori association rules Association mining mining algorithm of security risks Visual display 图1基于大数据分析的隐患分析模型流程 Fig.I Hidden danger analysis model process based on big data analysis 词汇并不包含在R语言的词库中,为了提高数据 的Force Atlas图形布局算法,对隐患进行可视化 分词的准确性,再分词前添加自定义词库,词库内 表示,得到安全隐患时间分布图和空间分布图 容来源于采矿工程、矿井通风、矿山工程、矿山应 1.3隐患信息主题挖掘 急救援等专业词汇.分词结束后数据中依然存在 矿山安全隐患数据的数量庞大而且所涉及的 频率较高但没有实际意义的词,即停用词,因此需 种类复杂多样,在实际管理过程中很难通过人工 要对分词结束的数据去停用词,目的是对文本的 完成对隐患数据按照隐患类别进行分类统计,更 特征项降维减噪,提高文本挖掘工具的处理速度 难以发现安全隐患问题中隐藏的隐患主题.因此, 与处理能力 通过大数据分析中的主题挖掘算法构建矿山隐患 1.2隐患信息多维度辨识 信息的主题挖掘模型,对井下安全隐患数据进行 地下矿山安全隐患的发生不是杂乱无序的, 深层次分析,通过将众多的隐患归类,获得能够反 随着企业对隐患的治理,造成某些安全隐患数量 映井下生产安全问题的隐患主题,更加有针对性 随着时间的延长呈现出一定的波动起伏规律.为 的指导安全管理工作的开展 了分析安全隐患的变化,在数据预处理的基础上, 文本的主题挖掘是大数据分析中重要的组成 按照年份统计该年内出现频率较高的隐患词,对 部分,该方法可以将众多的数据按照一定的规则 高频词按时间顺序进行分析,得到历年隐患数量 进行高度概括,按照不同的隐患内容划分为不同 随时间变化的曲线,从而在时间维度上对隐患的 的隐患主题.BTM主题挖掘模型四]与传统的 发展变化进行把握.同样,隐患并不是在井下任何 LDA主题挖掘模型1的相似点在于,两种主题算 地点都存在,一些特定的隐患会在某些关键地点 法的先验分布均服从狄利克雷分布(Dirichlet 出现且出现的次数较高,为了明确井下隐患发生 distribution,Dir(a),区别在于BTM是对词对进行 的重点区域,指导企业对危险区域的排查,通过统 建模而不是单独的词语,然后利用共轭分布对主 计隐患数据中的地点并提取频繁出现的地点,对 题模型进行推理.该模型通过对短文本语料进行 高频地点对应的隐患信息进行分析,得到该地点 词对扩充,改善了短文本建模的稀疏问题.该模型 可能发生的相关隐患, 的概率模型如图2所示 为了更加直观的展示安全隐患在时间和空间 上图2中,Z为一个主题,k为维度,0为短文 两个维度上的分布规律,利用大数据分析方法中 本集合中k个主题的分布,4为主题维度k的词汇
词汇并不包含在 R 语言的词库中,为了提高数据 分词的准确性,再分词前添加自定义词库,词库内 容来源于采矿工程、矿井通风、矿山工程、矿山应 急救援等专业词汇. 分词结束后数据中依然存在 频率较高但没有实际意义的词,即停用词,因此需 要对分词结束的数据去停用词,目的是对文本的 特征项降维减噪,提高文本挖掘工具的处理速度 与处理能力. 1.2 隐患信息多维度辨识 地下矿山安全隐患的发生不是杂乱无序的, 随着企业对隐患的治理,造成某些安全隐患数量 随着时间的延长呈现出一定的波动起伏规律. 为 了分析安全隐患的变化,在数据预处理的基础上, 按照年份统计该年内出现频率较高的隐患词,对 高频词按时间顺序进行分析,得到历年隐患数量 随时间变化的曲线,从而在时间维度上对隐患的 发展变化进行把握. 同样,隐患并不是在井下任何 地点都存在,一些特定的隐患会在某些关键地点 出现且出现的次数较高,为了明确井下隐患发生 的重点区域,指导企业对危险区域的排查,通过统 计隐患数据中的地点并提取频繁出现的地点,对 高频地点对应的隐患信息进行分析,得到该地点 可能发生的相关隐患. 为了更加直观的展示安全隐患在时间和空间 两个维度上的分布规律,利用大数据分析方法中 的 Force Atlas 图形布局算法,对隐患进行可视化 表示,得到安全隐患时间分布图和空间分布图. 1.3 隐患信息主题挖掘 矿山安全隐患数据的数量庞大而且所涉及的 种类复杂多样,在实际管理过程中很难通过人工 完成对隐患数据按照隐患类别进行分类统计,更 难以发现安全隐患问题中隐藏的隐患主题. 因此, 通过大数据分析中的主题挖掘算法构建矿山隐患 信息的主题挖掘模型,对井下安全隐患数据进行 深层次分析,通过将众多的隐患归类,获得能够反 映井下生产安全问题的隐患主题,更加有针对性 的指导安全管理工作的开展. 文本的主题挖掘是大数据分析中重要的组成 部分,该方法可以将众多的数据按照一定的规则 进行高度概括,按照不同的隐患内容划分为不同 的隐患主题 . BTM 主题挖掘模型 [22] 与传统 的 LDA 主题挖掘模型[23] 的相似点在于,两种主题算 法 的 先 验 分 布 均 服 从 狄 利 克 雷 分 布 (Dirichlet distribution, Dir(α)),区别在于 BTM 是对词对进行 建模而不是单独的词语,然后利用共轭分布对主 题模型进行推理. 该模型通过对短文本语料进行 词对扩充,改善了短文本建模的稀疏问题. 该模型 的概率模型如图 2 所示. 上图 2 中 ,Z 为一个主题,k 为维度,θ 为短文 本集合中 k 个主题的分布,φk 为主题维度 k 的词汇 Data preprocessing Data cleaning Tokenization Stop words removal Force atlas graphic layout algorithm BTM topic mining model Gibbs sampling algorithm Perplexity Visual display Statistics of high frequency words Topic mining of security risks Apriori association rules mining algorithm Association mining of security risks Multi dimensional hidden danger identification Analysis on time distribution of security risks Analysis on spatial distribution of security risks 图 1 基于大数据分析的隐患分析模型流程 Fig.1 Hidden danger analysis model process based on big data analysis · 330 · 工程科学学报,第 44 卷,第 3 期
郭对明等:基于文本挖掘的矿山安全隐患大数据分析与可视化 331· 的经典算法之一242,该算法通过构建候选集和 建立规则挖掘频繁项集,其核心是基于两阶段频 集思想的递推算法.Apriori算法对关联规则的挖 掘主要分为两个步骤,首先要构建一组最小支持 度的频繁项,然后根据所建立的频繁项集构造关 联规则,具体步骤如图3所示 Construction of mine safety hazard data set D 图2BTM概率图模型 Proposed minimum support Fig.2 BTM probability graph model (min_supp)and minimum confidence(min conf) 分布,NB为文档数目,a、B为词对与主题分布和主 Scan the data set and Candidate 1 itemsets C count each item 题与单词分布的狄利克雷分布的超参数.模型的 计算过程如下所示: Y ①对于每一个主题Z,其主题维度下的词分布 Prune min supp Frequent 1 itemsets L 为p=Dir(B): ②对于短文本语料集,确定一个全局的主题 Connect Candidate 2 itemsets C 分布0=Dir(B: ③对于词对W<w,w>W中每一个词,执行: Frequent k itemsets La 从全局主题分布0中,抽取一个主题Z,即 ¥ Candidate +1 Z=Mult(0); Connect itemsets C+ 从被抽取的主题中,抽取两个词w,和w,:其中 每个词对都是从一个独立主题中产生,即",w于 N Y Frequent +1 Mult(o). Prune Support of item Sets≥min_supp itemsets La BTM模型采用Gibbs抽样算法进行采样,主 题分布的最终化简如下式所示 L=Empty set (nwik+B)(nwk+B) P(ZIZ-w.W.a.B)c(n.+a)- (1) (∑wmwk+BM)2 Output association rules (confidence>min_supp) 式中:Z为除去当前词对的主题分布,Z为主题, n:为分配到主题Z的次数,nwk、nwk、nwk分别为 Calculate the lift of association rules and 词对w、w、W分配到主题Z的次数,M为语料集 expla in the rules 中不同的词语数 图3基于Apriori算法矿山安全隐患关联规则挖掘流程 之后根据公式(2)和公式(3)对超参数进行估计 Fig.3 Mining process of association rules for mine safety hazard based 0s及+B on Apriori algorithm (2) B+Ka 2基于大数据隐患分析模型应用与结果分析 nwkz +B P=∑wnt+ME (3) 2.1数据描述与处理 1.4隐患信息关联规则挖掘 本文以某矿山的GIS安全管理系统中抽取得 导致矿山安全事故产生的原因往往不止一 到安全隐患排查数据为研究对象,该数据从2013 种,多种安全隐患的出现增加了矿山安全事故发 年至2019年,共计34000条,记录了隐患发生的 生的概率,这表明安全隐患并不是孤立存在,他们 时间、位置、隐患单位、具体问题、整改意见等 往往存在着一定的联系.因此分析不同隐患之间 内容 的内在联系,理清隐患之间的因果关系,对有效治 对收集的隐患数据进行预处理,经过分词和 理隐患,预防隐患产生起到事半功倍的作用 去停用词后提取词频前200的高频词汇作为有效 Apriori算法是挖掘布尔关联规则频繁项目集 结果(最小词频大于200),部分高频词如表1所示
分布,NB 为文档数目,α、β 为词对与主题分布和主 题与单词分布的狄利克雷分布的超参数. 模型的 计算过程如下所示: ① 对于每一个主题 Z,其主题维度下的词分布 为 φ=Dir(β); ② 对于短文本语料集,确定一个全局的主题 分布 θ=Dir(β); ③ 对于词对 W<wi,wj>W 中每一个词,执行: 从全局主题分 布 θ 中 ,抽取一个主 题 Z, 即 Z=Mult(θ); 从被抽取的主题中,抽取两个词 wi 和 wj;其中 每个词对都是从一个独立主题中产生,即 wi,wj= Mult(φ). BTM 模型采用 Gibbs 抽样算法进行采样,主 题分布的最终化简如下式所示. P(Z|Z−w,W,α, β) ∝ (nz +α) (nwi |z +β)(nwj |z +β) ( ∑ wnw|z +βM) 2 (1) nw|z nwi |z nwj |z 式中: Z−w 为除去当前词对的主题分布,Z 为主题, nz 为分配到主题 Z 的次数, 、 、 分别为 词对 w、wi、wj 分配到主题 Z 的次数,M 为语料集 中不同的词语数. 之后根据公式 (2) 和公式 (3) 对超参数进行估计. θ = nz +β B+Kα (2) φ = nw|z +β ∑ w nw|z + Mβ (3) 1.4 隐患信息关联规则挖掘 导致矿山安全事故产生的原因往往不止一 种,多种安全隐患的出现增加了矿山安全事故发 生的概率,这表明安全隐患并不是孤立存在,他们 往往存在着一定的联系. 因此分析不同隐患之间 的内在联系,理清隐患之间的因果关系,对有效治 理隐患,预防隐患产生起到事半功倍的作用. Apriori 算法是挖掘布尔关联规则频繁项目集 的经典算法之一[24−25] ,该算法通过构建候选集和 建立规则挖掘频繁项集,其核心是基于两阶段频 集思想的递推算法. Apriori 算法对关联规则的挖 掘主要分为两个步骤,首先要构建一组最小支持 度的频繁项,然后根据所建立的频繁项集构造关 联规则,具体步骤如图 3 所示. Construction of mine safety hazard data set D Proposed minimum support (min_supp) and minimum confidence (min_conf) Scan the data set and count each item ... N Y Candidate 1 itemsets C1 Frequent 1 itemsets L1 Support of item sets≥min_supp Prune Frequent k itemsets Lk Connect Candidate 2 itemsets C2 Connect Candidate k+1 itemsets Ck+1 Support of item sets≥min_supp Frequent k+1 itemsets Lk+1 Prune L=Empty set Output association rules (confidence>min_supp) Calculate the lift of association rules and expla in the rules N Y 图 3 基于 Apriori 算法矿山安全隐患关联规则挖掘流程 Fig.3 Mining process of association rules for mine safety hazard based on Apriori algorithm 2 基于大数据隐患分析模型应用与结果分析 2.1 数据描述与处理 本文以某矿山的 GIS 安全管理系统中抽取得 到安全隐患排查数据为研究对象,该数据从 2013 年至 2019 年,共计 34000 条,记录了隐患发生的 时间、位置、隐患单位、具体问题、整改意见等 内容. 对收集的隐患数据进行预处理,经过分词和 去停用词后提取词频前 200 的高频词汇作为有效 结果 (最小词频大于 200),部分高频词如表 1 所示. α θ β φk wi wj NB k Z 图 2 BTM 概率图模型 Fig.2 BTM probability graph model 郭对明等: 基于文本挖掘的矿山安全隐患大数据分析与可视化 · 331 ·