2020年2月,第26卷,第1期,027-043页 高校地质学报 February 2020, Vol 26, No 1, pp. 027-043 Geological Journal of China Universities DO:10.16108/issn1006-7493.2019102 引用格式:蒋璟鑫,李超,胡修棉.2020.沉积学数据库建设与沉积大数据科学研究进展:以 Macrostrat数据库为例高校 地质学报,26(1):027-043 沉积学数据库建设与沉积大数据科学研究进展: 以 Macrostrat数据库为例 蒋璟鑫,李超,胡修棉* 内生金属矿床成矿机制研究国家重点实验室,南京大学地球科学与工程学院,南京210023 摘要:沉积岩(物)是构成地球表层的主要岩石类型。自地质学诞生以来,地质学家已经积累了海量的沉积学相关研究数 据,国内外也相继涌现出 Macrostrat等以整合沉积学、地层学相关数据为主的优秀数据库。随着沉积学、地层学、古生物 学、地球化学、地质年代学、地球观测等学科数据的快速增长,数据整合分析技术的重大突破,从全球视野研究深时沉积 过程变为了可能。文章介绍了国际沉积相关数据库的总体建设情况,并深度剖析美国 Macrostra数据库的结构及其创新工作 模式,旨在为深时数字地球( Deep-Time Digital Earth,DDE)计划建设多学科、多尺度、多层次、共享开源的大数据库提供 借鉴和参考;在此基础上,剖析了若干应用大数据思维开展的重要科研实例 关键词: Macrostrat;大数据;数据库;沉积物演化;沉积学 中图分类号:P5882;P628+4 文献标识码:A 文章编号:1006-7493(2020)01-027-17 Advances on Sedimentary Database Building and related research Macrostrat As an Example JIANG Jingxin, LI Chao, HU Xiumian State Key Laboratory of Mineral Deposit Research, School of Earth Sciences and Engineering, Nanjing University, Nanjing 210023 Abstract: Sedimentary rocks are the main rock type that constitutes the Earth's surface. During centuries a large amount of sedimentological data have been accumulated and in the meanwhile comprehensive sedimentological databases, such as Macrostrat, have established. With the rapid growth of data in all aspects of geology including sedimentology, as well as great breakthroughs in data integration and analysis technology, it is possible to employ big-data analysis methods to explore the deep-time sedimentary process from a global perspective. The currentpaper introduces the main sedimentological databases, and analyzes their structure in detail. The innovative working mode of Macrostrat database is deciphered aiming to prowide valuable experience for the sedimentological database in the Deep-time Digital Earth (DDE) Big Science Program. The database will be multi-disciplinary, multi-scaled, multi-leveled and opensource. Several study employing big data analy Key words: Macrostrat; big data; database; evolution of sediments; sedimentolog Correspondingauthor:HUXiumian,Professor:E-mail:huxm@nju.edu.cn 随着数据存储、运算、分析技术的进步,人力,新的科研范式——数据密集型科学研究应运 类具备了处理海量数据、并从中提取信息的能而生。它正在潜移默化地影响着人类生活,改变 收稿日期:2019-11-08:修回日期:2019-11-25 基金项目:国家杰出青年基金(41525007)资助 作者简介:蒋璟鑫,男,1995年生,博士研究生,主要从事沉积古环境研究;E- mail: jjxcug24@l63com *通讯作者:胡修棉,男,1974年生,教授,主要从事沉积学研究; E-mail: huxmt@nued
2020 年 2 月,第 26 卷,第 1期,027-043页 February 2020,Vol. 26,No.1, pp. 027-043 高 校 地 质 学 报 Geological Journal of China Universities _____________________________ 收稿日期:2019-11-08;修回日期:2019-11-25 基金项目:国家杰出青年基金(41525007)资助 作者简介:蒋璟鑫,男,1995年生,博士研究生,主要从事沉积古环境研究;E-mail: jjxcug24@163.com *通讯作者:胡修棉,男,1974年生,教授,主要从事沉积学研究;E-mail: huxm@nju.edu.cn 沉积学数据库建设与沉积大数据科学研究进展: 以Macrostrat数据库为例 蒋璟鑫,李 超,胡修棉* 内生金属矿床成矿机制研究国家重点实验室,南京大学 地球科学与工程学院, 南京 210023 摘要:沉积岩(物)是构成地球表层的主要岩石类型。自地质学诞生以来,地质学家已经积累了海量的沉积学相关研究数 据,国内外也相继涌现出Macrostrat等以整合沉积学、地层学相关数据为主的优秀数据库。随着沉积学、地层学、古生物 学、地球化学、地质年代学、地球观测等学科数据的快速增长,数据整合分析技术的重大突破,从全球视野研究深时沉积 过程变为了可能。文章介绍了国际沉积相关数据库的总体建设情况,并深度剖析美国Macrostrat数据库的结构及其创新工作 模式,旨在为深时数字地球(Deep-Time Digital Earth, DDE)计划建设多学科、多尺度、多层次、共享开源的大数据库提供 借鉴和参考;在此基础上,剖析了若干应用大数据思维开展的重要科研实例。 关键词:Macrostrat;大数据;数据库;沉积物演化;沉积学 中图分类号:P588.2; P628+.4 文献标识码:A 文章编号:1006-7493(2020)01-027-17 Advances on Sedimentary Database Building and Related Research: Macrostrat As an Example JIANG Jingxin,LI Chao,HU Xiumian* State Key Laboratory of Mineral Deposit Research, School of Earth Sciences and Engineering, Nanjing University, Nanjing 210023 Abstract: Sedimentary rocks are the main rock type that constitutes the Earth's surface. During centuries a large amount of sedimentological data have been accumulated and in the meanwhile comprehensive sedimentological databases, such as Macrostrat, have established. With the rapid growth of data in all aspects of geology including sedimentology, as well as great breakthroughs in data integration and analysis technology, it is possible to employ big-data analysis methods to explore the deep-time sedimentary process from a global perspective. The currentpaper introduces the main sedimentological databases, and analyzes their structure in detail. The innovative working mode of Macrostrat database is deciphered aiming to provide valuable experience for the sedimentological database in the Deep-time Digital Earth (DDE) Big Science Program. The database will be multi-disciplinary, multi-scaled, multi-leveled and opensource. Several study cases of employing big data analysis to solve scientific questions are also introduced here. Key words: Macrostrat; big data; database; evolution of sediments; sedimentology Corresponding author: HU Xiumian, Professor; E-mail: huxm@nju.edu.cn DOI: 10.16108/j.issn1006-7493.2019102 引用格式:蒋璟鑫,李超,胡修棉. 2020. 沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例[J]. 高校 地质学报,26(1):027-043 随着数据存储、运算、分析技术的进步,人 类具备了处理海量数据、并从中提取信息的能 力,新的科研范式——数据密集型科学研究应运 而生。它正在潜移默化地影响着人类生活,改变
高校地质学报 26卷1期 人类认识和科学研究世界的思维方式(姜浩端, Ava clastics,以及各种以文献形式发表的数据 2013;张维明和唐九阳,2015;翟明国等,集,如世界古水流数据集( Brand et al,2015)、世 2018)。地质学的研究突破依赖于对区域或全球各界洋底沉积物数据集( Dutkiewicz et al.,2015、世 类地质数据的综合分析,是典型的数据密集型科界气候敏感性沉积物数据集( Boucot et al,2013; 学。在大数据时代,地质学正面临着前所未有的 Cao et a,2018)、陆相冲积相泥质岩数据集 机遇与挑战,地球科学家亟需改变传统的思维方( McMahon et al.,2018)。这些数据库(集)尝试应 式,从因果关系为核心的逻辑思维方式转变为以用大数据思维,从全球视野理解深时沉积物质的 关联关系为核心的大数据思维方式(周永章等,演化和循环过程。下面进行详细介绍。 2016;陈建平等,2017)。 1.1俄罗斯 Alexander ronon数据库 沉积岩(物)占据了地球表面约70%的面 在20世纪50年代,俄罗斯 Alexander ronny团 积,是地球表层的重要组成部分。沉积物质作为队开始对地壳岩石的年龄、岩性和体积进行时空 岩石圈的一部分,其演化受多种地球系统过程控综合数据的人工编译工作。他们主要借助于小比 制(生物、气候、构造等),从而忠实地记录了地例尺(1:2500万)的地质图及钻井资料,通过相 球表层圈层的演化过程。地球表层沉积物质的总关参数提取和换算,得到岩石总体积、海洋覆盖 量、类型、通量、时空分布等直接反映了岩石面积、平均沉降速率、主要岩性组合丰度等数据 圈、生物圈、水圈、大气圈动态演化的过程,是并编制了显生宙整个过程中这些参数的变化图 探讨大尺度时空模式下构造、气候和生物演化的( Ronon et al,1969,1980)。该数据库的数据收集 重要参数和基本条件。在20世纪80年代,由全球过程长达十余年,建设目的是用定量化的方式来 沉积学家共同发起全球沉积地质计划( Global探讨岩石、古地理和构造之间的关系和规律,在 Sedimentary Geology Program,GsGP),以响应板块其建设初期取得了较多的重要研究成果。由于数 学说、古海洋学、古气候学以及沉积地质学等的据获取的局限性,以及严重依赖科学家或团队的 快速发展,旨在为开展全球尺度的沉积地质研究个体贡献, Alexander ronoy数据库早已停止发展。 提供新的方向、机会和动力。基于GSGP,沉积学1.2美国 GeoChron和 SedDB数据库 家提出了三大关键性的研究主题:(1)全球性韵 GeoChron和 SeddB是隶属于 EarthEr 律和事件;(2)全球性演化的沉积学记录;(3)全( Geochemical Databases for the Earth,ww 球性的沉积岩相分析,并将“白垩纪地质记录与 earthchem.org)的与沉积学相关的数据库。 全球地质作用、资源、韵律和事件”作为第一个 EarthChem是一个社区驱动、旨在保存、发现、访 试点项目(陈友明,1987;刘宝珺,1988;叶德问和可视化最广泛和最丰富的地球化学数据的信 燎,1988; Ginsburg,1986)。这些重大科学问题息网络平台和数据库门户,由美国科学基金委 的提出成为推动沉积学发展的主动力。随着近( National science foundation,NSF)资助。 几十年沉积学、地层学、古生物学、沉积地球 GeoChron(htp:/www.geochron.org)收集全球 化学、地质年代学、地球观测等学科的进一步沉积岩碎屑矿物年代学数据,以碎屑锆石年龄数 发展,地质学家积累了海量的沉积学相关的数据为主;同时捕获其元数据,以允许将来重新计 据。如何高效地整合各类数据,并从中挖掘这算,并与其它类型的数据集成。该数据库基于网 些数据中的价值,已经成为沉积学家急需解决页端口,由哥伦比亚大学进行管理。主要的数据 的新时代课题。 来源有:从已发表文献人工录入、全球科学家的 1国际沉积相关数据库建设情况 合作贡献以及定年实验仪器的联网自动上传。目 前该数据库共收录全球范围内1630个年代学样 目前,国际上已涌现出一大批优秀的沉积学品,并进行不定时更新(数据来自:htp:/w 相关数据库,如 Macrostrat、 GeoChron、 SeddB、 geochron.org)。整体上数据覆盖极不均匀,中国地 O The global sedimentary geology program: report of an intemational workshop. Fisher Island, Florida, August, 1986
高 校 地 质 学 报 2 6 卷 1 期 人类认识和科学研究世界的思维方式 (姜浩端, 2013; 张 维 明 和 唐 九 阳 , 2015; 翟 明 国 等 , 2018)。地质学的研究突破依赖于对区域或全球各 类地质数据的综合分析,是典型的数据密集型科 学。在大数据时代,地质学正面临着前所未有的 机遇与挑战,地球科学家亟需改变传统的思维方 式,从因果关系为核心的逻辑思维方式转变为以 关联关系为核心的大数据思维方式 (周永章等, 2016;陈建平等,2017)。 沉积岩 (物) 占据了地球表面约 70%的面 积,是地球表层的重要组成部分。沉积物质作为 岩石圈的一部分,其演化受多种地球系统过程控 制 (生物、气候、构造等),从而忠实地记录了地 球表层圈层的演化过程。地球表层沉积物质的总 量、类型、通量、时空分布等直接反映了岩石 圈、生物圈、水圈、大气圈动态演化的过程,是 探讨大尺度时空模式下构造、气候和生物演化的 重要参数和基本条件。在20世纪80年代,由全球 沉积学家共同发起全球沉积地质计划 (Global Sedimentary Geology Program, GSGP① ),以响应板块 学说、古海洋学、古气候学以及沉积地质学等的 快速发展,旨在为开展全球尺度的沉积地质研究 提供新的方向、机会和动力。基于GSGP,沉积学 家提出了三大关键性的研究主题:(1) 全球性韵 律和事件;(2)全球性演化的沉积学记录;(3)全 球性的沉积岩相分析,并将“白垩纪地质记录与 全球地质作用、资源、韵律和事件”作为第一个 试点项目 (陈友明,1987;刘宝珺,1988;叶德 燎,1988;Ginsburg, 1986)。这些重大科学问题 的提出成为推动沉积学发展的主动力。随着近 几十年沉积学、地层学、古生物学、沉积地球 化学、地质年代学、地球观测等学科的进一步 发展,地质学家积累了海量的沉积学相关的数 据。如何高效地整合各类数据,并从中挖掘这 些数据中的价值,已经成为沉积学家急需解决 的新时代课题。 1 国际沉积相关数据库建设情况 目前,国际上已涌现出一大批优秀的沉积学 相关数据库,如 Macrostrat、GeoChron、SedDB、 Ava Clastics,以及各种以文献形式发表的数据 集,如世界古水流数据集 (Brand et al., 2015)、世 界洋底沉积物数据集 (Dutkiewicz et al., 2015)、世 界气候敏感性沉积物数据集 (Boucot et al., 2013; Cao et al., 2018)、 陆 相 冲 积 相 泥 质 岩 数 据 集 (McMahon et al., 2018)。这些数据库 (集) 尝试应 用大数据思维,从全球视野理解深时沉积物质的 演化和循环过程。下面进行详细介绍。 1.1 俄罗斯Alexander Ronov数据库 在20世纪50年代,俄罗斯Alexander Ronov团 队开始对地壳岩石的年龄、岩性和体积进行时空 综合数据的人工编译工作。他们主要借助于小比 例尺 (1: 2500万) 的地质图及钻井资料,通过相 关参数提取和换算,得到岩石总体积、海洋覆盖 面积、平均沉降速率、主要岩性组合丰度等数据 并编制了显生宙整个过程中这些参数的变化图 (Ronov et al.,1969,1980)。该数据库的数据收集 过程长达十余年,建设目的是用定量化的方式来 探讨岩石、古地理和构造之间的关系和规律,在 其建设初期取得了较多的重要研究成果。由于数 据获取的局限性,以及严重依赖科学家或团队的 个体贡献,Alexander Ronov数据库早已停止发展。 1.2 美国GeoChron和SedDB数据库 GeoChron 和 SedDB 是 隶 属 于 EarthChem (Geochemical Databases for the Earth, www. earthchem.org) 的 与 沉 积 学 相 关 的 数 据 库 。 EarthChem是一个社区驱动、旨在保存、发现、访 问和可视化最广泛和最丰富的地球化学数据的信 息网络平台和数据库门户,由美国科学基金委 (National science foundation, NSF)资助。 GeoChron (http://www.geochron.org) 收集全球 沉积岩碎屑矿物年代学数据,以碎屑锆石年龄数 据为主;同时捕获其元数据,以允许将来重新计 算,并与其它类型的数据集成。该数据库基于网 页端口,由哥伦比亚大学进行管理。主要的数据 来源有:从已发表文献人工录入、全球科学家的 合作贡献以及定年实验仪器的联网自动上传。目 前该数据库共收录全球范围内 1630 个年代学样 品,并进行不定时更新 (数据来自:http://www. geochron.org)。整体上数据覆盖极不均匀,中国地 ① The global sedimentary geology program: report of an international workshop, Fisher Island, Florida, August, 1986. 28
1期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学硏究进展:以 Macrostrat数据库为例 区仅有约50个样品(数据由本文作者在 GeoChron(SMRG, Shallow Marine Research Group)为主导 官网统计得到)。用户可以在网页界面根据岩石类的、主要存储浅海沉积露头数据的关系型数据 型、矿物类型、定年实验方法、地区等参数进行库,目的是数字化浅海沉积体系的所有基本特征 数据筛选,并以HTML、ⅪLS和XML等格式获取数并对浅海油气开发和勘探提供模型。目前收录130 据集。 个研究实例,共14633个浅海相单元数据(数据来 Seddb(http://www.earthchem.org/seddb)je H:https://www.pds.group/ava-clastics/databases# 个可检索的、以海洋和陆地沉积物地球化学数据 SMAKS); 为主的关系型数据库,主要根据已发表的文献数 (3)DMAKS(Deep Marine Architecture Knowl 据汇编而成。该数据库由美国 Lamont- Doherty地 edge System),主要存储来自古代露头数据和现代 球天文台、俄勒冈州立大学、波士顿大学和博伊深水碎屑岩系统观测数据的关系型数据库,目的 西州立大学联合开发,由 Lamont- Doherty地球天文是为深水碎屑岩储层的特征识别提供新的定量模 台负责运营和维护。 SeddB汇编了大量地球表层沉型。目前收录66个深海盆地体系硏究实例,共 积物质的地球化学数据,用于沉积学、地球化9688个深海相单元数据(数据来自:htps!/w. 学、岩石学、海洋学和古气候研究,同时用于学pd. group/ava- clastics/ Databases# DMAKS)。 科教育领域。与 GeoChron类似, SedDB也归档了 除上述数据库外,世界范围内还有很多与沉 大量的元数据,以便于后期的数据整合、重新计积学相关的数据库(集)(表1),如以沉积地化数 算和分析。截至2013年,该数据库收录了近据为主的 GSSID( The global sedimentary sulfur isotope 10400个沉积岩样品的近75万个独立分析数据(数 database),以露头数据和模拟为主的SAND(Sedi- 据统计来自:https://en.wikipedia.org/wiki/SedDB),mentaryANalogsDatabase),以及隶属于各个国家 用户可以在web端口根据经纬度、地理位置、样品的地质调查相关机构的数据库,如英国地质调查 类型等参数进行数据检索。该数据库2014年以来局( British Geological Survey,BGS),拥有400多个 已停止更新。 数据集,如物理数据集(钻孔岩心、岩石、矿 1.3英国 Ava clastics数据库 物)、文字记录、档案;中国地质调查局( China AvaClasticshttps:/www.pds.group/ava--clastics)GeologicalSurvey)自主开发的地质云(Geocloud) 是一个世界级的沉积学模拟商用数据库,由英国涵盖了大量地质图,包括大量地层、沉积相关的 PDS( Petrotechnical Data Systems)集团和利兹大数据 学地球与环境学院合作创立,主要由利兹大学管 综上,在大数据潮流到来之际,沉积学领域 理。主要收录古代和现代河流、浅海和深海序列已经涌现了大量优秀的数据库,这些数据库主要 的研究实例,作为储层的类似物,并将其数字化关注某一类或某几类数据,依靠人工数字化团队 (转化为石油行业软件的岩相代码),为能源行业对文献中的数据进行结构化,是利用大数据思维 提供服务。根据所收录的数据和应用目的,分为模式拟解决区域、小规模和短时间尺度特定沉积 三个子数据库 学问题的有效尝试,但是在面临全球、大规模和 (1) FAKTS( Fluvial architecture Knowledge长时间尺度综合性的科学问题时,这些数据库仍 Transfer Systen),是利兹大学河流研究小组然有很多的局限和不足之处:(1)规模小,数据 (FRG, Fluvial Research Group)为主导的、主要存储形式单一,建设和运营多依赖于个人科学家或单 河流沉积露头数据的关系型数据库,目的是详细个科研团队;(2)发展前景有限,运行状态完全 描述河流相储层特征并对其中储藏的烃源岩进行依赖于资助项目的情况,一旦资助结束,数据库 预测。目前收录270个河流研究实例,共50544个即更新停滞;(3)数据覆盖不均匀,数据收集过 河流相单元数据(数据来自:htts:/wpds.程受到科学家自身的研究兴趣和主动性的影响 group/ava-clastics/ Databases## FAKTS); (4)时空分辨率低,无法反映真实的信息;(5) (2) SMAKS( Shallow Marine Architecture很多文献和数据库资源不开源,难以二次引用和 Knowledge System),是利兹大学浅海研究小组进一步整合。因此,在当前数据更充足、技术更
1 期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例 区仅有约50个样品 (数据由本文作者在GeoChron 官网统计得到)。用户可以在网页界面根据岩石类 型、矿物类型、定年实验方法、地区等参数进行 数据筛选,并以HTML、XLS和XML等格式获取数 据集。 SedDB (http://www.earthchem.org/seddb) 是 一 个可检索的、以海洋和陆地沉积物地球化学数据 为主的关系型数据库,主要根据已发表的文献数 据汇编而成。该数据库由美国 Lamont -Doherty 地 球天文台、俄勒冈州立大学、波士顿大学和博伊 西州立大学联合开发,由Lamont-Doherty地球天文 台负责运营和维护。SedDB汇编了大量地球表层沉 积物质的地球化学数据,用于沉积学、地球化 学、岩石学、海洋学和古气候研究,同时用于学 科教育领域。与 GeoChron 类似,SedDB 也归档了 大量的元数据,以便于后期的数据整合、重新计 算和分析。截至 2013 年,该数据库收录了近 10400个沉积岩样品的近75万个独立分析数据(数 据统计来自:https://en.wikipedia.org/wiki/SedDB), 用户可以在web端口根据经纬度、地理位置、样品 类型等参数进行数据检索。该数据库2014年以来 已停止更新。 1.3 英国Ava Clastics数据库 Ava Clastics (https://www.pds.group/ava-clastics) 是一个世界级的沉积学模拟商用数据库,由英国 PDS (Petrotechnical Data Systems) 集团和利兹大 学地球与环境学院合作创立,主要由利兹大学管 理。主要收录古代和现代河流、浅海和深海序列 的研究实例,作为储层的类似物,并将其数字化 (转化为石油行业软件的岩相代码),为能源行业 提供服务。根据所收录的数据和应用目的,分为 三个子数据库: (1) FAKTS (Fluvial Architecture Knowledge Transfer System), 是 利 兹 大 学 河 流 研 究 小 组 (FRG,Fluvial Research Group)为主导的、主要存储 河流沉积露头数据的关系型数据库,目的是详细 描述河流相储层特征并对其中储藏的烃源岩进行 预测。目前收录270个河流研究实例,共50544个 河 流 相 单 元 数 据 (数 据 来 自 : https://www.pds. group/ava-clastics/ Databases# FAKTS); (2) SMAKS (Shallow Marine Architecture Knowledge System),是利兹大学浅海研究小组 (SMRG,Shallow Marine Research Group) 为主导 的、 主要存储浅海沉积露头数据的关系型数据 库,目的是数字化浅海沉积体系的所有基本特征 并对浅海油气开发和勘探提供模型。目前收录130 个研究实例,共14633个浅海相单元数据(数据来 自 : https://www.pds.group/ava-clastics/ Databases# SMAKS); (3) DMAKS (Deep Marine Architecture Knowl⁃ edge System),主要存储来自古代露头数据和现代 深水碎屑岩系统观测数据的关系型数据库,目的 是为深水碎屑岩储层的特征识别提供新的定量模 型。目前收录 66 个深海盆地体系研究实例,共 9688 个深海相单元数据 (数据来自:https://www. pds.group/ava-clastics/ Databases# DMAKS)。 除上述数据库外,世界范围内还有很多与沉 积学相关的数据库(集)(表1),如以沉积地化数 据为主的GSSID(The global sedimentary sulfur isotope database),以露头数据和模拟为主的SAND (Sedi⁃ mentary ANalogs Database),以及隶属于各个国家 的地质调查相关机构的数据库,如英国地质调查 局 (British Geological Survey, BGS),拥有400多个 数据集,如物理数据集 (钻孔岩心、岩石、矿 物)、文字记录、档案;中国地质调查局 (China Geological Survey) 自主开发的地质云 (Geocloud) 涵盖了大量地质图,包括大量地层、沉积相关的 数据。 综上,在大数据潮流到来之际,沉积学领域 已经涌现了大量优秀的数据库,这些数据库主要 关注某一类或某几类数据,依靠人工数字化团队 对文献中的数据进行结构化,是利用大数据思维 模式拟解决区域、小规模和短时间尺度特定沉积 学问题的有效尝试,但是在面临全球、大规模和 长时间尺度综合性的科学问题时,这些数据库仍 然有很多的局限和不足之处:(1) 规模小,数据 形式单一,建设和运营多依赖于个人科学家或单 个科研团队;(2) 发展前景有限,运行状态完全 依赖于资助项目的情况,一旦资助结束,数据库 即更新停滞;(3) 数据覆盖不均匀,数据收集过 程受到科学家自身的研究兴趣和主动性的影响; (4) 时空分辨率低,无法反映真实的信息;(5) 很多文献和数据库资源不开源,难以二次引用和 进一步整合。因此,在当前数据更充足、技术更 29
高校地质学报 26卷1期 表1国际主要沉积学相关数据库(集) Table 1 Table of major sedimentological database or dataset 数据库名称 开发者运营者 数据类型 数据库建设目的 威斯康辛大学 从盆地和大陆尺度对整个地表和地下沉积 Macrostrat https://macrostrat.orgShananE.Peters若性、古生物数据若、火成岩和变质岩的组合进行定量的空间 Alexander ronoy's 静态数据库 Mbt、e体各类沉积物总用定量化的方式来探讨岩石、古地理和构造 团队 之间的关系和规律 SeddblEarthchemhttp://www.earthehem.Lamont-dob 沉积岩石地球化学数收集汇编海洋和大陆沉积物的地球化学数 据,用于沉积学、地球化学、岩石学、海洋 学和古气候研究,并用于教育目的 GeochronIeArthchemhttp:/www.geochron.org哥伦比亚大学全球沉积岩碎屑矿 athChem和 Eathtime,记录地质年 年龄数据 捕获元数据以满足重新计算以及基 行集成 http://www.pds.group 代、古代的河 Ava-elasties 利兹大学 海、深海沉积对不同环境的沉积实例进行分析转换,为能 例数据 htp:∥ oastler.usgs USGS LASED 路易斯安那州沉积岩提供基于多种底图的地质数据共享平台 (美国地质调查和沉积环境数据 dimentaryanalogsdata-罗拉多矿业大沉积岩露头数据 http://www 通过构建沉积岩系统体系结构、开发和响应 SAND 积储层模拟数据 变化的预测模型,促进对全球大陆边缘演化 过程的科学理解 MARS htpe/ dbforms ga.gov.a/澳大利亚 收录澳大利亚海域的为沉积动力学、沉积物定量分析、沉积地球 pls/www/ np m. mars, search地球科学中心现代海相沉积物数据化学研究提供数据基础 The global 西澳大学 收录全球含硫沉积物 sedimentary sulfur 为科学界提供一个完整和更新的全球数据 isotope database gsid- global-- sedimentary Selvaraj V团队的年龄和硫同位素相库,描述沉积岩的多种硫特征随时间的变化 关数据 The global 罗马琳达大学大陆前寒武和 生音 为盆地分析、烃源岩研究、板块重建和检验 paleocurrent database 5.25(2015 古水流数据 全球性构造事件的时间等提供数据基础 收录大洋钻探原始 the world's oc Doi: 10.1 130/G.1 Dutkiewicz A 次报告中的沉积物数解全球海洋沉积物分布规律,对气候变化 Alluvial mudrock 剑桥大学 dataset Doi:10.26 /science. McMahon WJ收录石炭纪之前全球研究太古代-石炭纪冲积相泥质岩的演化及 团队 冲积相泥质岩数据其控制因素 Doi:org/10.2110 俄勒冈州立大学收录地质历史时期全总结全球古气候带的特征,结合古地理位置 lithologies dataset sepmesp II BcdA团队球气候敏感性沉积岩重建气候敏感性沉积岩的古纬度,为研究气 先进的条件下,有必要建立更高精度、更全面的形成和破坏、大规模古生物演化等问题提供了可 地学数据库,更高效地收集和挖掘沉积地质领域能( Peters and husson,2018),是现阶段沉积大数 的“暗数据”和长尾数据,进一步探索和理解深据库建设的一个范例。这里详细介绍其数据库的 时地质历史的演化过程和机制。 结构、创新的工作模式以及相关的研究实例。 2 Macrostrat数据库剖析 2.1数据库结构 Macrostrat是以沉积学为主的地质数据库,由 Macrostrat是一个综合多学科、多尺度、多层美国威斯康辛大学 Shanan e. Peters团队创立,于 次方法的数据共享平台,侧重于定量总结岩石记2005年正式启动,由NSF资助。是基于 MariaDB 录时空分布格局,为科学家研究全球沉积岩记录和 PostGIS- enabled PostgreSQL环境开发的关系型 D MariaDB:一种数据库管理系统,由社区开发,与 MySQL(目前最常见的开源关系型数据库系统)高度兼容 ② PostgresQL:一种开源的对象一关系数据库管理系统; PostGIs是 PostgreSQL的一个扩展,提供空间对象、空间索引、空间操作函数和空间操作符 等空间信息服务功能(https:/zh.wikipedia.org)
高 校 地 质 学 报 2 6 卷 1 期 先进的条件下,有必要建立更高精度、更全面的 地学数据库,更高效地收集和挖掘沉积地质领域 的“暗数据”和长尾数据,进一步探索和理解深 时地质历史的演化过程和机制。 2 Macrostrat数据库剖析 Macrostrat是一个综合多学科、多尺度、多层 次方法的数据共享平台,侧重于定量总结岩石记 录时空分布格局,为科学家研究全球沉积岩记录 形成和破坏、大规模古生物演化等问题提供了可 能 (Peters and Husson, 2018),是现阶段沉积大数 据库建设的一个范例。这里详细介绍其数据库的 结构、创新的工作模式以及相关的研究实例。 2.1 数据库结构 Macrostrat是以沉积学为主的地质数据库,由 美国威斯康辛大学 Shanan E. Peters 团队创立,于 2005年正式启动,由NSF资助。是基于MariaDB① 和 PostGIS-enabled PostgreSQL②环境开发的关系型 表1 国际主要沉积学相关数据库 (集) Table 1 Table of major sedimentological database or dataset ① MariaDB:一种数据库管理系统,由社区开发,与MySQL(目前最常见的开源关系型数据库系统)高度兼容. ② PostgreSQL:一种开源的对象—关系数据库管理系统;PostGIS是PostgreSQL的一个扩展,提供空间对象、空间索引、空间操作函数和空间操作符 等空间信息服务功能(https://zh.wikipedia.org/). 数据库名称 Macrostrat Alexander Ronov's Database SedDB |EarthChem GeoChron |EarthChem Ava-clastics LASED SAND MARS The global sedimentary sulfur isotope database The global paleocurrent database Seafloor sediments in the world's ocean Alluvial mudrock dataset Climate-sensitive lithologies dataset 网址 https://macrostrat.org 线下静态数据库 http: //www.earthchem . org/seddb http: //www.geochron.org http: //www.pds.group/ ava-clastics http: //coastal.er.usgs . gov/lased http://www. sedimentaryanalogsdata base.com http://dbforms ga. gov.au/ pls/www/np m.mars.search http://ww.cet.edu.au/res earch-projects/ special-projects/ gssid-global-sedimentary -sulfur-isotope-database Doi: 10.1038/sdata 2015.25 (2015). Doi:10.1130/G36883.1 Doi: 10.1126/science. aan4660 Doi: org/10.2110/ sepmcsp.11 开发者运营者 威斯康辛大学 Shanan E. Peters 团队 Alexander Ronov 团队 Lamont-Doherty 地球天文台 哥伦比亚大学 利兹大学 USGS (美国地质调查 局) 科罗拉多矿业大 学 澳大利亚 地球科学中心 西澳大学 Selvaraja V团队 罗马琳达大学 悉尼大学 Dutkiewicz A 团队 剑桥大学 McMahonW J 团队 俄勒冈州立大学 Boucot A J团队 数据类型 北美地区地层、 岩性、古生物数据 由地质图或钻井获得 的全球各类沉积物总 量和分布的数据 沉积岩石地球化学数 据 全球沉积岩碎屑矿物 年龄数据 收录现代、古代的河 流、浅海、深海沉积 序列实例数据 路易斯安那州沉积岩 和沉积环境数据 沉积岩露头数据和沉 积储层模拟数据 收录澳大利亚海域的 现代海相沉积物数据 收录全球含硫沉积物 的年龄和硫同位素相 关数据 收集已发表文献中各 大陆前寒武和显生宙 古水流数据 收录大洋钻探原始航 次报告中的沉积物数 据 收录石炭纪之前全球 冲积相泥质岩数据 收录地质历史时期全 球气候敏感性沉积岩 数据 数据库建设目的 从盆地和大陆尺度对整个地表和地下沉积 岩、火成岩和变质岩的组合进行定量的空间 和地质年代学分析 用定量化的方式来探讨岩石、古地理和构造 之间的关系和规律 收集汇编海洋和大陆沉积物的地球化学数 据,用于沉积学、地球化学、岩石学、海洋 学和古气候研究,并用于教育目的 服务于EathChem和Eathtime,记录地质年 代,同时捕获元数据以满足重新计算以及基 他数据进行集成 对不同环境的沉积实例进行分析转换,为能 源行业提供服务 提供基于多种底图的地质数据共享平台 通过构建沉积岩系统体系结构、开发和响应 变化的预测模型,促进对全球大陆边缘演化 过程的科学理解 为沉积动力学、沉积物定量分析、沉积地球 化学研究提供数据基础 为科学界提供一个完整和更新的全球数据 库,描述沉积岩的多种硫特征随时间的变化 为盆地分析、烃源岩研究、板块重建和检验 全球性构造事件的时间等提供数据基础 了解全球海洋沉积物分布规律,对气候变化 及其对海洋环境的影响进行重建和预测 研究太古代-石炭纪冲积相泥质岩的演化及 其控制因素 总结全球古气候带的特征,结合古地理位置 重建气候敏感性沉积岩的古纬度,为研究气 候分带和气候变化提供依据 30
1期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学硏究进展:以 Macrostrat数据库为例 地理空间数据库和辅助性的网络基础设施,可以理(图1a-c)为每个控制点分配控制范围,该方 通过网页进行访问(https://macrostrat.org) 法保证了每个多边形内的任意一点与其控制点的 Macrostrat目前主要涵盖北美、加勒比、新西距离,都小于与其他控制点的距离,并默认该范 兰地区及IODP部分研究区的地层数据、PBDB围内的地层信息与地层柱一致。该过程是在R语 ( Paleobiology Database)的化石数据、 USGS( United言环境下完成的,同时允许对多边形进行人为编 States Geological Survey)的地球化学数据、 Mindat辑,以保证多边形的边界与有地质意义的特征边 的矿物数据以及涵盖全球范围的地质图数据。界保持一致,如大的不整合面、断层面等。由于 Macrostrat致力于应用这些新的数据来开展研究 多边形的大小取决于地层柱的密度,因此其大小 22空间信息 并不一致(图1e) (1)地层柱( Column),是 Macrostrat的主要 (3)单元( Units),是组成地层柱的基本元 空间数据对象,是代表某个区域整体地质概况的素,也是 Macrostrat数据库的核心要素,在数据录 地层综合体,最早由美国科学家在编制北美地层人时被识别为与其他相邻单元在古生物、岩性和/ 对比表( Correlation of Stratigraphic Units of North或年代上不同的岩体或沉积物。在 Macrostrat中 America, COSUNA)时提出。在 COSUNA提供的每个单元具备地层名称、测量数据(如厚度)、沉 地层对比表中,每个 Column本质上是一个复合地积环境、矿物、化石、组成单元的岩性(一种或 层柱,代表了整个盆地的综合地质信息。由于不多种)等信息。所有单元属性信息均以表格形式 同区域的构造格架不同,因此人为地决定地层柱进行存储(图2)。 的分布密度,在构造程度复杂的区域(如大陆边23时间信息 缘)进行加密,以保证获取最有代表性的地质信2.3.1地质年代信息 息(图1d)。 Macrostrat储存了多种相互关联、在相对和绝 (2)多边形( Polygon),是地层柱映射的地理对意义上与数值年龄相关的地层划分方案(如年 分区。多边形提出的目的是定量分析整个北美区代地层、生物地层、岩石地层等)。其中年代地层 域的岩石地层信息。 Macrostrat以地层柱为区域岩单元具有数值年龄,主要参考由国际地层学委员 石地层信息的控制点,按照Delaunary三角划分原会发布的最新数据(www.stratigraphy.org);对于没 (d地层柱位置 e)多边形面积 a-() Delaunary三角划分示意图:(a)地层柱控制点C1、C2、C3;(b)控制点连线(灰色)及垂直平分线(蓝色);()控制点的控制范围(垂直平分线 相交的多边形彩色区域);(d-(e)北美大陆的多边形划分(据 Mevers et a.2011改):(d)北美地区地层柱的分布位置;(e)每个地层柱代表的区域 图1多边形面积划分原理 Fig 1 Schematic of polygon DR语言:一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖据(https://zh.wikipedia.orgf)
1 期 蒋璟鑫等:沉积学数据库建设与沉积大数据科学研究进展:以Macrostrat数据库为例 地理空间数据库和辅助性的网络基础设施,可以 通过网页进行访问(https://macrostrat.org)。 Macrostrat目前主要涵盖北美、加勒比、新西 兰地区及 IODP 部分研究区的地层数据、PBDB (Paleobiology Database)的化石数据、USGS(United States Geological Survey) 的地球化学数据、Mindat 的矿物数据以及涵盖全球范围的地质图数据。 Macrostrat致力于应用这些新的数据来开展研究。 2.2 空间信息 (1) 地层柱 (Column),是 Macrostrat 的主要 空间数据对象,是代表某个区域整体地质概况的 地层综合体,最早由美国科学家在编制北美地层 对 比 表 (Correlation of Stratigraphic Units of North America,COSUNA) 时提出。在 COSUNA 提供的 地层对比表中,每个Column本质上是一个复合地 层柱,代表了整个盆地的综合地质信息。由于不 同区域的构造格架不同,因此人为地决定地层柱 的分布密度,在构造程度复杂的区域 (如大陆边 缘) 进行加密,以保证获取最有代表性的地质信 息(图1d)。 (2) 多边形 (Polygon),是地层柱映射的地理 分区。多边形提出的目的是定量分析整个北美区 域的岩石地层信息。Macrostrat以地层柱为区域岩 石地层信息的控制点,按照Delaunary三角划分原 理 (图1 a-c) 为每个控制点分配控制范围,该方 法保证了每个多边形内的任意一点与其控制点的 距离,都小于与其他控制点的距离,并默认该范 围内的地层信息与地层柱一致。该过程是在 R 语 言①环境下完成的,同时允许对多边形进行人为编 辑,以保证多边形的边界与有地质意义的特征边 界保持一致,如大的不整合面、断层面等。由于 多边形的大小取决于地层柱的密度,因此其大小 并不一致(图1e)。 (3) 单元 (Units),是组成地层柱的基本元 素,也是Macrostrat数据库的核心要素,在数据录 入时被识别为与其他相邻单元在古生物、岩性和/ 或年代上不同的岩体或沉积物。在 Macrostrat 中, 每个单元具备地层名称、测量数据 (如厚度)、沉 积环境、矿物、化石、组成单元的岩性 (一种或 多种) 等信息。所有单元属性信息均以表格形式 进行存储(图2)。 2.3 时间信息 2.3.1 地质年代信息 Macrostrat储存了多种相互关联、在相对和绝 对意义上与数值年龄相关的地层划分方案 (如年 代地层、生物地层、岩石地层等)。其中年代地层 单元具有数值年龄,主要参考由国际地层学委员 会发布的最新数据(www.stratigraphy.org);对于没 (a) (b) (c) (d) (e) (a)-(c) Delaunary三角划分示意图:(a) 地层柱控制点(C1、C2、C3);(b) 控制点连线(灰色)及垂直平分线(蓝色);(c) 控制点的控制范围(垂直平分线 相交的多边形彩色区域);(d)-(e) 北美大陆的多边形划分(据Meyers et al., 2011 改):(d) 北美地区地层柱的分布位置;(e) 每个地层柱代表的区域 图 1 多边形面积划分原理 Fig. 1 Schematic of polygon areas’ division ①R语言:一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘(https://zh.wikipedia.org/). 31