工程科学学报 Chinese Journal of Engineering 卷积神经网络在矿区预测中的研究与应用 袁传新贾东宁周生辉 Research and application of convolutional neural network in mining area prediction YUAN Chuan-xin,JIA Dong-ning.ZHOU Sheng-hui 引用本文: 袁传新,贾东宁,周生辉.卷积神经网络在矿区预测中的研究与应用.工程科学学报,2020,42(12):1597-1604.doi: 10.13374j.issn2095-9389.2020.01.02.001 YUAN Chuan-xin,JIA Dong-ning,ZHOU Sheng-hui.Research and application of convolutional neural network in mining area prediction[J].Chinese Journal of Engineering,2020,42(12):1597-1604.doi:10.13374/j.issn2095-9389.2020.01.02.001 在线阅读View online::htps:/ldoi.org10.13374.issn2095-9389.2020.01.02.001 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报.2020.42(11):1516 https:/doi.org10.13374.issn2095-9389.2020.06.30.008 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报.2017,3910:1584htps:ldoi.org10.13374.issn2095-9389.2017.10.018 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报.2020,42(10:1372htps:1doi.org/10.13374.issn2095-9389.2019.10.10.005 BP神经网络F钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报.2017,394:511 https:oi.org10.13374j.issn2095-9389.2017.04.005 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报.2019.41(10:1229 https:/doi.org10.13374.issn2095-9389.2019.03.27.002 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报.2019,41(8:1085htps:/1doi.org/10.13374issn2095-9389.2019.08.014
卷积神经网络在矿区预测中的研究与应用 袁传新 贾东宁 周生辉 Research and application of convolutional neural network in mining area prediction YUAN Chuan-xin, JIA Dong-ning, ZHOU Sheng-hui 引用本文: 袁传新, 贾东宁, 周生辉. 卷积神经网络在矿区预测中的研究与应用[J]. 工程科学学报, 2020, 42(12): 1597-1604. doi: 10.13374/j.issn2095-9389.2020.01.02.001 YUAN Chuan-xin, JIA Dong-ning, ZHOU Sheng-hui. Research and application of convolutional neural network in mining area prediction[J]. Chinese Journal of Engineering, 2020, 42(12): 1597-1604. doi: 10.13374/j.issn2095-9389.2020.01.02.001 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2020.01.02.001 您可能感兴趣的其他文章 Articles you may be interested in 基于卷积神经网络的反无人机系统声音识别方法 Sound recognition method of an anti-UAV system based on a convolutional neural network 工程科学学报. 2020, 42(11): 1516 https://doi.org/10.13374/j.issn2095-9389.2020.06.30.008 基于深度卷积神经网络的地磁导航方向适配性分析 Direction-matching-suitability analysis for geomagnetic navigation based on convolutional neural networks 工程科学学报. 2017, 39(10): 1584 https://doi.org/10.13374/j.issn2095-9389.2017.10.018 基于集成神经网络的剩余寿命预测 Remaining useful life prediction based on an integrated neural network 工程科学学报. 2020, 42(10): 1372 https://doi.org/10.13374/j.issn2095-9389.2019.10.10.005 BP神经网络IF钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报. 2017, 39(4): 511 https://doi.org/10.13374/j.issn2095-9389.2017.04.005 深度神经网络模型压缩综述 A survey of model compression for deep neural networks 工程科学学报. 2019, 41(10): 1229 https://doi.org/10.13374/j.issn2095-9389.2019.03.27.002 基于BP神经网络的机器人波动摩擦力矩修正方法 Wave friction correction method for a robot based on BP neural network 工程科学学报. 2019, 41(8): 1085 https://doi.org/10.13374/j.issn2095-9389.2019.08.014
工程科学学报.第42卷,第12期:1597-1604.2020年12月 Chinese Journal of Engineering,Vol.42,No.12:1597-1604,December 2020 https://doi.org/10.13374/j.issn2095-9389.2020.01.02.001;http://cje.ustb.edu.cn 卷积神经网络在矿区预测中的研究与应用 袁传新12,贾东宁12)四,周生辉) 1)中国海洋大学信息科学与工程学院,青岛2660002)青岛海洋科学与技术试点国家实验室高性能科学计算与系统仿真平台,青岛 266000 ☒通信作者,E-mail:jiadn@ouc.edu.cn 摘要在研究富钴结壳高产区地形特征基础上,以富钴结壳站点地理坐标为中心,获得了一平方公里的海拔高度数值矩阵 作为地形特征.使用卷积神经网络的分析方法对数值矩阵进行训练,学习坡度和平整度等区域特征,将富钴结壳站点地形和 其他海底地形进行区分.依据训练后获得的模型,对富钴结壳高产区进行预测,取得了较好的预测效果,结合其他因素的影 响,可以提高结壳靶区选取的精准度 关键词富钴结壳:海底地形:数值矩阵:卷积神经网络:矿区预测 分类号P744.3:TP183 Research and application of convolutional neural network in mining area prediction YUAN Chuan-xin2),JIA Dong-ning2,ZHOU Sheng-hu 1)College of Information Science and Engineering,Ocean University of China,Qingdao 266000,China 2)High-performance Scientific Computing and System Simulation Platform,Pilot National Laboratory for Marine Science and Technology (QingDao), Qingdao 266000,China Corresponding author,E-mail:jiadn@ouc.edu.cn ABSTRACT Cobalt-rich crusted deposits are found all over the world's oceans,and their distribution is closely related to the submarine topography.The determination of crusting area is the basic work for the exploration and mining of these deposits.Many factors affect the accumulation of crusts,and topography is a crucial factor.Mineralization forecast requires comprehensive consideration of geological background and experts'views and opinions,the prior knowledge of prospectors is the biggest factor affecting the results.In the course of ocean research,especially with the rapid development of space information technology,a huge amount of ocean data that cover about 70%of the total surface area have been accumulated rapidly;how to extract valuable information from large,fast,complex,and multisource data has become a hot topic in current ocean research.Machine learning-and deep learning- related research methods can read feature signs from mineral data to obtain existing mineral knowledge to further serve mine prediction work.Based on the study of terrain features of cobalt-rich crust in high-producing areas,the numerical matrix of altitude of 1 km2ocean surface was obtained,with the geographical coordinates of cobalt-rich crust sites as the center.Using the analysis method of convolutional neural network,the numerical matrix is trained to learn regional features such as slope and flatness and to distinguish the cobalt-rich crust-crust site topography from other submarine topography.According to the training model,the high-producing cobalt- rich crusting area was predicted and better forecasting value is obtained.Meanwhile,the accuracy of the selection of crusting target area was improved by combining the influence of other factors. KEY WORDS cobalt-rich crust;seafloor terrain;numerical matrix;convolutional neural network;mining area forecast 收稿日期:2020-01-02 基金项目:海洋大数据中心资助项目(2018SDPT01)
卷积神经网络在矿区预测中的研究与应用 袁传新1,2),贾东宁1,2) 苣,周生辉2) 1) 中国海洋大学信息科学与工程学院,青岛 266000 2) 青岛海洋科学与技术试点国家实验室高性能科学计算与系统仿真平台,青岛 266000 苣通信作者,E-mail:jiadn@ouc.edu.cn 摘 要 在研究富钴结壳高产区地形特征基础上,以富钴结壳站点地理坐标为中心,获得了一平方公里的海拔高度数值矩阵 作为地形特征. 使用卷积神经网络的分析方法对数值矩阵进行训练,学习坡度和平整度等区域特征,将富钴结壳站点地形和 其他海底地形进行区分. 依据训练后获得的模型,对富钴结壳高产区进行预测,取得了较好的预测效果,结合其他因素的影 响,可以提高结壳靶区选取的精准度. 关键词 富钴结壳;海底地形;数值矩阵;卷积神经网络;矿区预测 分类号 P744.3; TP183 Research and application of convolutional neural network in mining area prediction YUAN Chuan-xin1,2) ,JIA Dong-ning1,2) 苣 ,ZHOU Sheng-hui2) 1) College of Information Science and Engineering, Ocean University of China, Qingdao 266000, China 2) High-performance Scientific Computing and System Simulation Platform, Pilot National Laboratory for Marine Science and Technology (QingDao), Qingdao 266000, China 苣 Corresponding author, E-mail: jiadn@ouc.edu.cn ABSTRACT Cobalt-rich crusted deposits are found all over the world ’s oceans, and their distribution is closely related to the submarine topography. The determination of crusting area is the basic work for the exploration and mining of these deposits. Many factors affect the accumulation of crusts, and topography is a crucial factor. Mineralization forecast requires comprehensive consideration of geological background and experts ’ views and opinions, the prior knowledge of prospectors is the biggest factor affecting the results. In the course of ocean research, especially with the rapid development of space information technology, a huge amount of ocean data that cover about 70% of the total surface area have been accumulated rapidly; how to extract valuable information from large, fast, complex, and multisource data has become a hot topic in current ocean research. Machine learning- and deep learningrelated research methods can read feature signs from mineral data to obtain existing mineral knowledge to further serve mine prediction work. Based on the study of terrain features of cobalt-rich crust in high-producing areas, the numerical matrix of altitude of 1 km2 ocean surface was obtained, with the geographical coordinates of cobalt-rich crust sites as the center. Using the analysis method of convolutional neural network, the numerical matrix is trained to learn regional features such as slope and flatness and to distinguish the cobalt-rich crust–crust site topography from other submarine topography. According to the training model, the high-producing cobaltrich crusting area was predicted and better forecasting value is obtained. Meanwhile, the accuracy of the selection of crusting target area was improved by combining the influence of other factors. KEY WORDS cobalt-rich crust;seafloor terrain;numerical matrix;convolutional neural network;mining area forecast 收稿日期: 2020−01−02 基金项目: 海洋大数据中心资助项目(2018SDPT01) 工程科学学报,第 42 卷,第 12 期:1597−1604,2020 年 12 月 Chinese Journal of Engineering, Vol. 42, No. 12: 1597−1604, December 2020 https://doi.org/10.13374/j.issn2095-9389.2020.01.02.001; http://cje.ustb.edu.cn
1598 工程科学学报,第42卷,第12期 富钴结壳是继大洋多金属结核之后发现的又 用大量的输人和输出得出映射关系⑧,其中卷积神 一深海固体矿产资源,堆积在海底岩石和岩屑表 经网络从复杂数据中提取特征表现突出,在诸多 面,主要由氢氧化物和铁锰氧化物组成.结壳除了 领域被广泛应用,特别是图像分类领域取得了非 钴元素外,还富含稀土元素和其他的许多金属,例 常好的效果四.卷积神经网络结构与数值矩阵能够 如铁、镁、镍、铜、锌等,具有非常高的开采价值四 更好吻合,自动完成特征提取,其权重共享机制可 富钴结壳的形成和其他矿产资源一样,是非常缓 以降低网络复杂性,适合本文基于数值矩阵的地 慢的自然生成过程,每100万年只能产生1至6mm 形特征区分类找矿任务 的结壳.矿床主要分布于碳酸盐补偿深度(CCD) 本文从结壳矿区的地形特征出发,利用卷积 以上、最低含氧层以下水深500~3500m的平顶 神经网络对大量的数值矩阵训练学习得到预测模 海山、海台顶部和斜坡的表面2-海洋里有诸多 型,对矿区靶点进行预测.另外,对本文方法的应 海山,仅仅在太平洋区域广义海山有约50000多 用及后序研究工作进行了展望 座,高度大于1000m的海山就有约8000多座阿 1研究现状 富钴结壳矿床有非常高的经济价值,估计潜在资 源量达10亿吨阿.富钴结壳是海洋中典型的水成 自1959年国内就开始出现了找矿靶区的相关 成因的矿产资源,由于形成于古海洋和古沉积环 研究,随着研究的深入,出现越来越多与“找矿靶 境,除了资源本身的经济价值,富钴结壳还记录了 区”相关的关键词©.找矿使用的方法一般有经验 海洋和气候的演化历史,具有非常高的环境研究 类比法、综合信息法和数学模型法等,逐渐从经验 价值可.正是由于具有巨大的经济价值和环境价 找矿向理论和科学找矿过渡.如.刘泉清等提出利 值,钴结壳资源一直是海洋调查的重点.我国富钴 用经验法和化学普查相结合的方法杨恒书等 结壳资源的调查开展的比较晚,90年代末才系统 创用浓度级次值特征对比模型和相近率线性模 的开展起来,投入巨资开展了若干综合航次调查, 型,中国科学院地质与地球物理研究所总结提 至今20多年的时间也仅仅调查了几十座海山 出“三场异常互相约束”预测新理论),张庆华等 1997~2002年的航次主要是选择靶区的侦察性调 提出物探、化探与遥感相结合的方法.随着科学 查,使用多波束、浅剖、重磁、海底摄像和温盐探 技术的发展与研究的不断深人,诸多新技术、新方 仪(CTD)等的环境勘测和使用抓斗、拖网等的地 法被应用到找矿中来.智能找矿方法是在地质类 质取样调查.2002年以后的航次对部分调查过的 比法和模型法应用的基础上,结合计算机技术,将 海山进行加密采样,调查方法增加了可视抓斗、可 已有的专家经验和一定的矿床模型输入计算机, 视浅剖等?无论是初始侦察点的选择还是之后对 建立起预测模型系统,将研究区的有关资料输入, 整个矿区的圈定,都需要对大范围的诸多海域进 在此基础上进行评判.如,王世称主导的综合信息 行大规模的海山结壳资源调查.科考船需要对未 矿产预测系统),赵鹏大的大比例尺矿床统计预 知的区域进行随机靶点调查,且对于确定的结壳 测专家系统6等.深度学习和机器学习迅猛发展, 矿区的边界的界定还需要进行大量的勘察工作, 硬件技术的进步,简洁的python语言、完善的深度 这些都将耗费大量的人力、物力和时间 学习框架Tensorflow以及基于Theano/Tensorflow 科考船对不同海域多年的普查工作积累了大 更简单易上手的高阶框架Keras,.推动了智能找矿 量的宝贵资料和数据,并且这些数据正在以指数 发展.已有许多学者投入到机器学习与找矿以及 级的形式增长.如何把这些数据合理的运用起来, 成矿预测的研究中来,如徐述腾和周永章以吉林 促进海洋地质的研究进展,成为了科研工作者关 夹皮沟金矿和河北石湖金矿的黄铁矿、黄铜矿等 注的热点问题.作为大数据分析和处理的重要技 为例,设计了Unet卷积神经网络模型,实现了镜下 术手段,机器学习方法在找矿领域也得到了广泛 矿石矿物识别分类叨:刘艳鹏等通过卷积神经网 应用.研究发现,地形是结壳富集的一个重要因 络算法挖掘Pb分布特征与矿体地下就位空间的 素,富钴结壳富集区具有坡度、平整度等明显的地 耦合相关性进行矿产资源预测,肖壮等提出基 形特征.随着遥感等技术的进步,海拔高度的获取 于深度学习的矿区韧性剪切带找矿研究等.然 更加精确,利用密集采点的海拔高度矩阵作为区 而,大部分研究是以陆地矿为基础的,海洋底部矿 域地形特征,具有较高的区分度.机器学习的分支 区的找矿工作要复杂许多,迫切需要在找矿靶区 深度学习善于处理多维数据错综复杂的关系,运 的选取方面进行改进,增加成功找到矿区的可能
富钴结壳是继大洋多金属结核之后发现的又 一深海固体矿产资源,堆积在海底岩石和岩屑表 面,主要由氢氧化物和铁锰氧化物组成. 结壳除了 钴元素外,还富含稀土元素和其他的许多金属,例 如铁、镁、镍、铜、锌等,具有非常高的开采价值[1] . 富钴结壳的形成和其他矿产资源一样,是非常缓 慢的自然生成过程,每 100 万年只能产生 1 至 6 mm 的结壳. 矿床主要分布于碳酸盐补偿深度(CCD) 以上、最低含氧层以下水深 500~3500 m 的平顶 海山、海台顶部和斜坡的表面[2−4] . 海洋里有诸多 海山,仅仅在太平洋区域广义海山有约 50000 多 座,高度大于 1000 m 的海山就有约 8000 多座[5] . 富钴结壳矿床有非常高的经济价值,估计潜在资 源量达 10 亿吨[6] . 富钴结壳是海洋中典型的水成 成因的矿产资源,由于形成于古海洋和古沉积环 境,除了资源本身的经济价值,富钴结壳还记录了 海洋和气候的演化历史,具有非常高的环境研究 价值[7] . 正是由于具有巨大的经济价值和环境价 值,钴结壳资源一直是海洋调查的重点. 我国富钴 结壳资源的调查开展的比较晚,90 年代末才系统 的开展起来,投入巨资开展了若干综合航次调查, 至今 20 多年的时间也仅仅调查了几十座海山. 1997~2002 年的航次主要是选择靶区的侦察性调 查,使用多波束、浅剖、重磁、海底摄像和温盐探 仪(CTD)等的环境勘测和使用抓斗、拖网等的地 质取样调查. 2002 年以后的航次对部分调查过的 海山进行加密采样,调查方法增加了可视抓斗、可 视浅剖等[7] . 无论是初始侦察点的选择还是之后对 整个矿区的圈定,都需要对大范围的诸多海域进 行大规模的海山结壳资源调查. 科考船需要对未 知的区域进行随机靶点调查,且对于确定的结壳 矿区的边界的界定还需要进行大量的勘察工作, 这些都将耗费大量的人力、物力和时间. 科考船对不同海域多年的普查工作积累了大 量的宝贵资料和数据,并且这些数据正在以指数 级的形式增长. 如何把这些数据合理的运用起来, 促进海洋地质的研究进展,成为了科研工作者关 注的热点问题. 作为大数据分析和处理的重要技 术手段,机器学习方法在找矿领域也得到了广泛 应用. 研究发现,地形是结壳富集的一个重要因 素,富钴结壳富集区具有坡度、平整度等明显的地 形特征. 随着遥感等技术的进步,海拔高度的获取 更加精确,利用密集采点的海拔高度矩阵作为区 域地形特征,具有较高的区分度. 机器学习的分支 深度学习善于处理多维数据错综复杂的关系,运 用大量的输入和输出得出映射关系[8] . 其中卷积神 经网络从复杂数据中提取特征表现突出,在诸多 领域被广泛应用,特别是图像分类领域取得了非 常好的效果[9] . 卷积神经网络结构与数值矩阵能够 更好吻合,自动完成特征提取,其权重共享机制可 以降低网络复杂性,适合本文基于数值矩阵的地 形特征区分类找矿任务. 本文从结壳矿区的地形特征出发,利用卷积 神经网络对大量的数值矩阵训练学习得到预测模 型,对矿区靶点进行预测. 另外,对本文方法的应 用及后序研究工作进行了展望. 1 研究现状 自 1959 年国内就开始出现了找矿靶区的相关 研究,随着研究的深入,出现越来越多与“找矿靶 区”相关的关键词[10] . 找矿使用的方法一般有经验 类比法、综合信息法和数学模型法等,逐渐从经验 找矿向理论和科学找矿过渡. 如,刘泉清等提出利 用经验法和化学普查相结合的方法[11] ,杨恒书等 创用浓度级次值特征对比模型和相近率线性模 型[12] ,中国科学院地质与地球物理研究所总结提 出“三场异常互相约束”预测新理论[13] ,张庆华等 提出物探、化探与遥感相结合的方法[14] . 随着科学 技术的发展与研究的不断深入,诸多新技术、新方 法被应用到找矿中来. 智能找矿方法是在地质类 比法和模型法应用的基础上,结合计算机技术,将 已有的专家经验和一定的矿床模型输入计算机, 建立起预测模型系统,将研究区的有关资料输入, 在此基础上进行评判. 如,王世称主导的综合信息 矿产预测系统[15] ,赵鹏大的大比例尺矿床统计预 测专家系统[16] 等. 深度学习和机器学习迅猛发展, 硬件技术的进步,简洁的 python 语言、完善的深度 学习框架 Tensorflow 以及基于 Theano/Tensorflow 更简单易上手的高阶框架 Keras,推动了智能找矿 发展. 已有许多学者投入到机器学习与找矿以及 成矿预测的研究中来,如徐述腾和周永章以吉林 夹皮沟金矿和河北石湖金矿的黄铁矿、黄铜矿等 为例,设计了 Unet 卷积神经网络模型,实现了镜下 矿石矿物识别分类[17] ;刘艳鹏等通过卷积神经网 络算法挖掘 Pb 分布特征与矿体地下就位空间的 耦合相关性进行矿产资源预测[18] ,肖壮等提出基 于深度学习的矿区韧性剪切带找矿研究[19] 等. 然 而,大部分研究是以陆地矿为基础的,海洋底部矿 区的找矿工作要复杂许多,迫切需要在找矿靶区 的选取方面进行改进,增加成功找到矿区的可能 · 1598 · 工程科学学报,第 42 卷,第 12 期
袁传新等:卷积神经网络在矿区预测中的研究与应用 1599· 性,减少时间和人力、物力成本 裸露岩石成为结壳生长有利位置.对本文获得的 2地形特征与理论方法 数值矩阵计算坡度值得表1,坡度大部分处在 8°~12°范围内,坡度较陡的地形较少 2.1海山富钴结壳矿区地形特征 结壳的形成及其丰度变化受控于诸多因素, 表1地形坡度统计 经纬度、区域地质构造、水深、地形和水文等都会 Table 1 Topographic slope statistics 对结壳的生长产生重要影响0例如,海山经纬度 Slope/() Ratio/% 位置决定了海山洋流速度以及流向,进而决定了 <8 21.43 结壳的附着程度、丰度以及类型:大量的研究成果 8-12 66.38 以及统计数据表明,水深影响结壳的生长和富集, >12 21.43 结壳大部分分布在水深1000~3000m范围内:结 分析认为,富钴结壳在一定范围内的坡度和 壳的产生来源于海水中的微生物和钙质粒子,水 平整度的海山区域容易生长富集,具备明显的分 文环境也是一个重要因素.研究认为,结壳分布与 类特征,可以作为找矿靶点的依据.运用容易获得 海山的地形特征具有一定的关系,控制作用效果 也比较明显四.结壳产生于各大洋区的水下高地, 的海拔高度矩阵作为地形特征,并采集大量的正 海山和岛屿斜坡是主要富集区,海山对结壳成矿 负样本,使用在分类问题上表现优异的卷积神经 网络进行二分类,进而成为富钴结壳矿区和结壳 具有重要意义,三大洋中,太平洋海山富钴结壳矿 富集海山选定的参考依据,具有现实意义 点的分布比例占到了73.3%.在空间上,海山山顶 2.2数据处理方法 区一般为微结核发育区,在海山的局部高地会有 2.2.1数据标准化 结壳生长成矿四海山分为尖顶海山和平顶海山 数据标准化(归一化)的目标是突出主要特征 两大类,尖顶海山山顶、边缘、上部斜坡及中部斜 的作用.弱化次要特征的影响.富钴结壳在不同海 坡区山脊部位最容易成矿,平顶海山边缘和除陡 崖外的上部斜坡区成矿率也较高P] 拔高度位置均有站点,地形矩阵数值分布在 图1表征了本文数值矩阵反应的地形特征,横 -4000~-800m之间,跟前文提及富钴结壳主要分 纵坐标表示各海拔取值点相对于第一个点的水平 布在1000~3000m范围内基本一致.不同的矩阵 数值的平均高度差别很大,而需要考虑的主要因 方向距离d,和d,竖坐标轴表示各取点海拔高度 素是整个矩阵反应的地形特征,高度数值的大小 h,均以米为单位.从形态学上讲,海山的形态要素 属于次要因素,因此要处理高度之间的差别 主要包括海山坡度、海山表面平整度2,因此要考 常用的两种数据标准化的方法是min-max和 虑的因素主要有坡度和海山微地貌特征.地形坡 度太小,海水中的物质不容易沉积:在地形坡度较 Z-cores.min-max标准化对原始数据进行变换,把 大的地方,结壳生长过程中容易塌落2阿坡度较大 结果值范围映射到0~1之间,函数为(1),min和 max分别为最小值和最大值.Z-cores标准化处理 和坡度较小都不利于结壳的形成.根据矿物质沉 数据使之符合标准正态分布,函数为公式(2), 积理论,颗粒最容易在凸起的部分聚集,山坡上的 u和o分别为样本均值和方差.本文对min-max 标准化方法做了改变,首先计算所有矩阵的max与min -2050 之差,取差值的最大值MAX,然后将公式(1)中分 -2100 母部分替换为MAX,函数为公式(3),目的在于防 -2150是 止崎岖地形与平缓地形混淆 -2200 x=(x-min)/(max-min) (1) -2250 (2) 50 x=(x-M)/o x=(x-min)/MAX (3) 0 30 10 20 0 dm 2.2.2插值算法 30 d/m 40 50 0 双线性插值算法根据插值点最接近的4个点 图1局部海山地形 的像素值进行计算.设(什山,什)为坐标变换后浮 Fig.I Local seamount terrain 点坐标,i,)为坐标(位,)位置的像素值,什山
性,减少时间和人力、物力成本. 2 地形特征与理论方法 2.1 海山富钴结壳矿区地形特征 结壳的形成及其丰度变化受控于诸多因素, 经纬度、区域地质构造、水深、地形和水文等都会 对结壳的生长产生重要影响[20] . 例如,海山经纬度 位置决定了海山洋流速度以及流向,进而决定了 结壳的附着程度、丰度以及类型;大量的研究成果 以及统计数据表明,水深影响结壳的生长和富集, 结壳大部分分布在水深 1000~3000 m 范围内;结 壳的产生来源于海水中的微生物和钙质粒子,水 文环境也是一个重要因素. 研究认为,结壳分布与 海山的地形特征具有一定的关系,控制作用效果 也比较明显[21] . 结壳产生于各大洋区的水下高地, 海山和岛屿斜坡是主要富集区,海山对结壳成矿 具有重要意义. 三大洋中,太平洋海山富钴结壳矿 点的分布比例占到了 73.3%. 在空间上,海山山顶 区一般为微结核发育区,在海山的局部高地会有 结壳生长成矿[22] . 海山分为尖顶海山和平顶海山 两大类,尖顶海山山顶、边缘、上部斜坡及中部斜 坡区山脊部位最容易成矿,平顶海山边缘和除陡 崖外的上部斜坡区成矿率也较高[23] . 图 1 表征了本文数值矩阵反应的地形特征,横 纵坐标表示各海拔取值点相对于第一个点的水平 方向距离 d1 和 d2,竖坐标轴表示各取点海拔高度 h,均以米为单位. 从形态学上讲,海山的形态要素 主要包括海山坡度、海山表面平整度[24] ,因此要考 虑的因素主要有坡度和海山微地貌特征. 地形坡 度太小,海水中的物质不容易沉积;在地形坡度较 大的地方,结壳生长过程中容易塌落[25] . 坡度较大 和坡度较小都不利于结壳的形成. 根据矿物质沉 积理论,颗粒最容易在凸起的部分聚集,山坡上的 裸露岩石成为结壳生长有利位置. 对本文获得的 数值矩阵计算坡度值得 表 1,坡度大部分处 在 8º~12º范围内,坡度较陡的地形较少. 分析认为,富钴结壳在一定范围内的坡度和 平整度的海山区域容易生长富集,具备明显的分 类特征,可以作为找矿靶点的依据. 运用容易获得 的海拔高度矩阵作为地形特征,并采集大量的正 负样本,使用在分类问题上表现优异的卷积神经 网络进行二分类,进而成为富钴结壳矿区和结壳 富集海山选定的参考依据,具有现实意义. 2.2 数据处理方法 2.2.1 数据标准化 数据标准化(归一化)的目标是突出主要特征 的作用,弱化次要特征的影响. 富钴结壳在不同海 拔高度位置均有站点 ,地形矩阵数值分布在 −4000~−800 m 之间,跟前文提及富钴结壳主要分 布在 1000~3000 m 范围内基本一致. 不同的矩阵 数值的平均高度差别很大,而需要考虑的主要因 素是整个矩阵反应的地形特征,高度数值的大小 属于次要因素,因此要处理高度之间的差别. 常用的两种数据标准化的方法是 min−max 和 Z-cores. min−max 标准化对原始数据进行变换,把 结果值范围映射到 0~1 之间,函数为(1),min 和 max 分别为最小值和最大值. Z-cores 标准化处理 数据使之符合标准正态分布 ,函数为公式( 2) , μ 和 σ 分别为样本均值和方差. 本文对 min−max 标准化方法做了改变,首先计算所有矩阵的max 与min 之差,取差值的最大值 MAX,然后将公式(1)中分 母部分替换为 MAX,函数为公式(3),目的在于防 止崎岖地形与平缓地形混淆. x= (x−min)/(max−min) (1) x = (x−µ)/σ (2) x= (x−min)/MAX (3) 2.2.2 插值算法 双线性插值算法根据插值点最接近的 4 个点 的像素值进行计算. 设 (i+u, j+v) 为坐标变换后浮 点坐标 , f(i, j) 为 坐 标 (i, j) 位置的像素值 , f(i+u, 表 1 地形坡度统计 Table 1 Topographic slope statistics Slope/(°) Ratio/% <8 21.43 8–12 66.38 >12 21.43 0 10 20 30 d1 /m d2 /m h/m 40 50 0 10 20 30 40 50 −2250 −2200 −2150 −2100 −2050 图 1 局部海山地形 Fig.1 Local seamount terrain 袁传新等: 卷积神经网络在矿区预测中的研究与应用 · 1599 ·
·1600 工程科学学报,第42卷,第12期 什)即为坐标变换后的像素值,其中i、j为整数部 区域坐标数据提取了网格型数值矩阵,对数据进 分,u、v为小数部分2)则这个像素值可由公式(4) 行调整后,分别使用Conv-3、VGGNet 16和两个修 得出.该算法保证了插值曲线的平滑性,弥补了最 改后的VGGNet 16结构进行对比实验 近邻算法的不足,是插值效果和运算速度相对较 3.1数据来源 优的算法,也是使用最广泛的 正样本原始数据来源于国际海底管理局 f(i+w,j+v)=(1-u)×(1-v)+(1-w)×v×f(i,i+1)+ (ISA)的富钴结壳主量元素标准数据集,由国家海 u×(1-v)×fi+1,)+u×v×fi+1,i+1) 洋科学数据共享服务平台提供.数据量共计 (4) 1203站,3286个样品,空间范围覆盖全球大部分海 2.3模型结构 域(-180°~180E,-64.18°~56.17N).剔除一些坐 本文的数值矩阵代表的是矿区地形,每一个 标分布较密集区域的坐标,实际使用1100个站点 数值都有空间位置关系,相当于图像中的像素点 用来作为提取数值矩阵正样本的基准数据.调用 因此,与特征提取和支持向量机(SVM)、随机森林 Google Earth软件的APL,在全球以100km为步长 等传统统计方法结合相比,使用更适合图像处理 提取共计12万坐标以及海拔高度信息,从中随机 的卷积神经网络.卷积神经网络与传统深层神经 均匀选取15200个海拔高度在-4000~-800m之 网络相比,可以明显降低模型规模.并且识别性能 间的坐标信息作为原始数据的负样本的基准坐标 最好,泛化能力最强2 数据.在负样本中有一定的存在噪声的可能性(即 针对数据集特性,搭建了适合本文区分类找 可能为富钴结壳矿区),因为可能性非常小,可以 矿研究的Conv-3模型.图2给出了Conv-3模型的 认为有较高的可信度 结构图,该卷积神经网络网络共包含7层:一个输 正负样本基准地理坐标信息被存储为26份文 入层,三个卷积层C1、C2和C3,两个全连接层 本,分布于26台计算机上.在每一台电脑上运行 F4和F5,一个输出层.在该模型中,输入层的输入 Google Earth和在Visual Studio上基于C++的数据 为50×50的数值矩阵,卷积层均使用16个5×5的 提取程序.程序自动读取文本文件的每一个坐标 卷积核,全连接层分别使用2048和128个神经元. (A,B),以(A,B)为中心点,以C为步长的度数表示, 输出层使用softmax函数进行分类 在0.8~1km范围内从经度A-25×C到A+25×C、 VGGNet16是一种深度卷积神经网络结构,通 纬度B-25×C到B+25×C调用Google Earth软件的 过不断深化网络结构提高性能2,在此结构中卷 API提取50×50的海拔高度数值矩阵 积层均使用3×3的卷积核,池化层使用的是Max- 本文最终获得了共计16200个存储海拔高度 pooling.为了满足实验要求,本文使用插值算法对 数值矩阵的文本,其中正样本1100个,负样本 输入的数值矩阵进行扩充,修改两层全连接层神 15200个.因为正样本数据量过小,而地型特征具 经元个数为2048、512,又分别采用(1)更改池化层 有旋转、翻转的不变性,利用这些特性将正样本的 为Max-pooling和(2)更改卷积层卷积核为3×3进 数据扩充为原来的8倍,得到8000个正样本,最终 行对比实验 使用正负样本共计24000个地形数据 3.2 3 实验过程 数据处理及算法实现 对于正负样本的数据,使用文件名作为标签 本文使用已知的富钴结壳站点的坐标和未知 的标注,在程序中使用OS模块读取文件名,将正 Feature Feature Feature Hidden Hidden maps maps units Outputs 1@50x50 16@48×48 16@48×48 16@48×48 2048 Max-pooling Max-pooling Max-pooling Flatten Fully Fully 5x5 kemel 5x5 kernel 5x5 kernel connected connected 图2Conv-3结构图 Fig.2 Conv-3 schematic
j+v) 即为坐标变换后的像素值,其中 i、j 为整数部 分,u、v 为小数部分[25] . 则这个像素值可由公式(4) 得出. 该算法保证了插值曲线的平滑性,弥补了最 近邻算法的不足,是插值效果和运算速度相对较 优的算法,也是使用最广泛的. f (i+u, j+v) = (1−u)×(1−v)+(1−u)×v× f (i, j+1)+ u×(1−v)× f(i+1, j)+u×v× f(i+1, j+1) (4) 2.3 模型结构 本文的数值矩阵代表的是矿区地形,每一个 数值都有空间位置关系,相当于图像中的像素点. 因此,与特征提取和支持向量机(SVM)、随机森林 等传统统计方法结合相比,使用更适合图像处理 的卷积神经网络. 卷积神经网络与传统深层神经 网络相比,可以明显降低模型规模,并且识别性能 最好,泛化能力最强[26] . 针对数据集特性,搭建了适合本文区分类找 矿研究的 Conv-3 模型. 图 2 给出了 Conv-3 模型的 结构图,该卷积神经网络网络共包含 7 层:一个输 入层 ,三个卷积层 C1、 C2 和 C3,两个全连接层 F4 和 F5,一个输出层. 在该模型中,输入层的输入 为 50×50 的数值矩阵,卷积层均使用 16 个 5×5 的 卷积核,全连接层分别使用 2048 和 128 个神经元, 输出层使用 softmax 函数进行分类. VGGNet16 是一种深度卷积神经网络结构,通 过不断深化网络结构提高性能[27] ,在此结构中卷 积层均使用 3×3 的卷积核,池化层使用的是 Max− pooling. 为了满足实验要求,本文使用插值算法对 输入的数值矩阵进行扩充,修改两层全连接层神 经元个数为 2048、512,又分别采用(1)更改池化层 为 Max−pooling 和(2)更改卷积层卷积核为 3×3 进 行对比实验. 3 实验过程 本文使用已知的富钴结壳站点的坐标和未知 区域坐标数据提取了网格型数值矩阵,对数据进 行调整后,分别使用 Conv-3、VGGNet 16 和两个修 改后的 VGGNet 16 结构进行对比实验. 3.1 数据来源 正样本原始数据来源于国际海底管理局 (ISA)的富钴结壳主量元素标准数据集,由国家海 洋科学数据共享服务平台提供 . 数据量共 计 1203 站,3286 个样品,空间范围覆盖全球大部分海 域(−180°~180°E,−64.18°~56.17°N). 剔除一些坐 标分布较密集区域的坐标,实际使用 1100 个站点 用来作为提取数值矩阵正样本的基准数据. 调用 Google Earth 软件的 API,在全球以 100 km 为步长 提取共计 12 万坐标以及海拔高度信息,从中随机 均匀选取 15200 个海拔高度在−4000~−800 m 之 间的坐标信息作为原始数据的负样本的基准坐标 数据. 在负样本中有一定的存在噪声的可能性(即 可能为富钴结壳矿区),因为可能性非常小,可以 认为有较高的可信度. 正负样本基准地理坐标信息被存储为 26 份文 本,分布于 26 台计算机上. 在每一台电脑上运行 Google Earth 和在 Visual Studio 上基于 C++的数据 提取程序. 程序自动读取文本文件的每一个坐标 (A,B),以(A,B)为中心点,以 C 为步长的度数表示, 在 0.8~1 km2 范围内从经度 A−25×C 到 A+25×C、 纬度 B−25×C 到 B+25×C 调用 Google Earth 软件的 API 提取 50×50 的海拔高度数值矩阵. 本文最终获得了共计 16200 个存储海拔高度 数值矩阵的文本 ,其中正样 本 1100 个 ,负样 本 15200 个. 因为正样本数据量过小,而地型特征具 有旋转、翻转的不变性,利用这些特性将正样本的 数据扩充为原来的 8 倍,得到 8000 个正样本,最终 使用正负样本共计 24000 个地形数据. 3.2 数据处理及算法实现 对于正负样本的数据,使用文件名作为标签 的标注,在程序中使用 OS 模块读取文件名,将正 Inputs 1@50×50 Feature maps 16@48×48 Feature maps 16@48×48 Max-pooling 5×5 kernel Max-pooling 5×5 kernel Max-pooling 5×5 kernel Flatten Fully connected Hidden units 2048 Hidden units 128 Outputs 1 Fully connected Feature maps 16@48×48 图 2 Conv-3 结构图 Fig.2 Conv-3 schematic · 1600 · 工程科学学报,第 42 卷,第 12 期