例如,2017年5月28日,贵阳市被投牌成为全国首个大数据安全示范试点城 市,《贵阳市大数据安全保障体系及产业规划》提出了“1+1+3+W”的大数据安 全发展总体思路。其中,第一个“1”,“大数据安全示范试点城市”已实现落地, 成为推动大数据安全发展的我体:而第二个“1”,】个大数据安全靶场也正在 着力建设中:“3”表示构建“城市安全态势感知中心”、“城市安全监管中心”、 “大数据安全创新中心3个中心:“N”表示在不同领域、不同行业,围绕数 据安全以及网铬安全构建N个不同的平台,目前,己经启动建设占地一千多亩 的大数据安全产业示范区,预计到“十三五”末期。贵阳大数据安全产业园将 成为国内大数据安全产业的重要聚集区和大数据安全产业地标。 大数据安全市场蓬勃发展,市场顶期良好,但问盟也不斯暴露,由于缺乏 相应的监管措饰、配套的安全标准以及相应的产品检测机制,一些不具备相关 资质和能力的企业看到商机后趁机涌入,导致安全市场的从业企业鱼龙混杂、 良莠不齐,呈现出“野蛮发展”的态势,市场乱象频出,亟待规范和引导。 随着国家对大数据安全的高度重视,一批大数据安全相关的国家标准将陆 续出台,将对规范市场秩序、扶持优质企业起到重要作用, 2.3大数据安全的重要意义 大数据已经逐步应用于产业发展、政府治理、民生改善等领域,大幅度提 高了人们的生产效率和生活水平。适应、把握、引领大数据,将成为时代潮流 在大数据时代,数据是重要的战略资源,但数据资源的价值只有在流通和应用 过程中才能够充分体现出来。这就要求打破传统垂直应用中所形成的数据孤岛, 形成适应大数据时代的数据湖,并需要数据在不同应用之间瓷动,这难免会出 现数据泄露和潘用问题。在发展大数据的同时,也容易出现攻府重要数据、法 人和其他组织商业机密、个人敏感数据泄露,给国家安全、杜会秩序、公共利 益以及个人安全造成威助。没有安全,发展就是空谈。大数据安全是发展大数 据的前提,必须将它摆在更加重要的位置。 大数据系统自身安全防护具有重要意义。大数据的数据量大且相互关联, 黑客一次成功的攻击就能够获得大量的数据,可以从大数据中快速捕捉到有价 值的信息,尤其是个人敏感信息,因此,蕴含着海量数据和潜在价值的大数据 成为网络攻击的显薯目标。另一方面,传统网络安全防御技术以及现有网络安 全行政监管手段与大数据安全保护的需求之间还存在较大差距:Had0o单对数据 的聚合增加了数据潘露的凤险:NSL,技术在维护数据安全方面缺乏严格的访 问控制和隐私管理:复杂多样的数据存储在一起,在数据管理和使用环节也容 易形成安全隐患:安全防护手段的更新升级速度无法跟上数据量指数级增长的 步伐等。因此,需要各层面、各环节保障大数据的安全。从数据的层面来看, 大数据自身安全涉及到采集、传输、存储、处理、交换、销毁等各个环节,每 个环节都面临不同的威助,需要采取不同的安全保障措施,这些工作都是保障 大数据安全的重要内容。从系统的层面来看,保障大数据自身安全需要从大数 据系统的各部分采取措施,建立聚固、镇密、健壮的防护体系,保障大数据系 统正确、安全、可靠的运行,防止大数据系统被破坏、被渗透或被非法使用。 从服务的层面米看,规范大数据安全服务内容,提高对大数据安全的风险识别 能力,建立健全的大数据安全保障体系,降低大数据安全隐患和安全事件发生
6 例如,2017 年 5 月 26 日,贵阳市被授牌成为全国首个大数据安全示范试点城 市,《贵阳市大数据安全保障体系及产业规划》提出了“1+1+3+N”的大数据安 全发展总体思路。其中,第一个“1”,“大数据安全示范试点城市”已实现落地, 成为推动大数据安全发展的载体;而第二个“1”,1 个大数据安全靶场也正在 着力建设中;“3”表示构建“城市安全态势感知中心”、“城市安全监管中心”、 “大数据安全创新中心”3 个中心;“N”表示在不同领域、不同行业,围绕数 据安全以及网络安全构建 N 个不同的平台。目前,已经启动建设占地一千多亩 的大数据安全产业示范区,预计到“十三五”末期,贵阳大数据安全产业园将 成为国内大数据安全产业的重要聚集区和大数据安全产业地标。 大数据安全市场蓬勃发展,市场预期良好,但问题也不断暴露。由于缺乏 相应的监管措施、配套的安全标准以及相应的产品检测机制,一些不具备相关 资质和能力的企业看到商机后趁机涌入,导致安全市场的从业企业鱼龙混杂、 良莠不齐,呈现出“野蛮发展”的态势,市场乱象频出,亟待规范和引导。 随着国家对大数据安全的高度重视,一批大数据安全相关的国家标准将陆 续出台,将对规范市场秩序、扶持优质企业起到重要作用。 2.3 大数据安全的重要意义 大数据已经逐步应用于产业发展、政府治理、民生改善等领域,大幅度提 高了人们的生产效率和生活水平。适应、把握、引领大数据,将成为时代潮流。 在大数据时代,数据是重要的战略资源,但数据资源的价值只有在流通和应用 过程中才能够充分体现出来。这就要求打破传统垂直应用中所形成的数据孤岛, 形成适应大数据时代的数据湖,并需要数据在不同应用之间流动,这难免会出 现数据泄露和滥用问题。在发展大数据的同时,也容易出现政府重要数据、法 人和其他组织商业机密、个人敏感数据泄露,给国家安全、社会秩序、公共利 益以及个人安全造成威胁。没有安全,发展就是空谈。大数据安全是发展大数 据的前提,必须将它摆在更加重要的位置。 大数据系统自身安全防护具有重要意义。大数据的数据量大且相互关联, 黑客一次成功的攻击就能够获得大量的数据,可以从大数据中快速捕捉到有价 值的信息,尤其是个人敏感信息。因此,蕴含着海量数据和潜在价值的大数据 成为网络攻击的显著目标。另一方面,传统网络安全防御技术以及现有网络安 全行政监管手段与大数据安全保护的需求之间还存在较大差距:Hadoop 对数据 的聚合增加了数据泄露的风险;NoSQL 技术在维护数据安全方面缺乏严格的访 问控制和隐私管理;复杂多样的数据存储在一起,在数据管理和使用环节也容 易形成安全隐患;安全防护手段的更新升级速度无法跟上数据量指数级增长的 步伐等。因此,需要各层面、各环节保障大数据的安全。从数据的层面来看, 大数据自身安全涉及到采集、传输、存储、处理、交换、销毁等各个环节,每 个环节都面临不同的威胁,需要采取不同的安全保障措施,这些工作都是保障 大数据安全的重要内容。从系统的层面来看,保障大数据自身安全需要从大数 据系统的各部分采取措施,建立坚固、缜密、健壮的防护体系,保障大数据系 统正确、安全、可靠的运行,防止大数据系统被破坏、被渗透或被非法使用。 从服务的层面来看,规范大数据安全服务内容,提高对大数据安全的风险识别 能力,建立健全的大数据安全保障体系,降低大数据安全隐患和安全事件发生
颊率。 大数据在保障网路安全方面也具有重要作用。当前,各种网路攻击频发, 攻击过程越来越复杂,网铬攻击手段变得越来越隐蔽,传统的入侵检测、防御 等网络安全产品往往难以奏效,采用大数据技术案检测高缓网馅攻击成为一种 趋势。当前,为了利用大数据来加强企业信息安全能力,包括采用大数据技术 来实现网路安全威胁信息分析,采用基于大数据的深度学习方法来替代传统入 侵检测方法中的攻击特征模式提取,采用大数据技术来实现网络安全态势感知, 以及对多步复杂网络攻击的检测、湖源和场景重现,都己开始应用。可以说, 大数据技术将重塑未来的网络安全技术和产业发展趋势。 未来,在大数据应用的飞速发展过程中,大数据安全问题将始终伴随左右, 针对大数据安全问想和安全风险,必须加大大数据安全技术的研究力度,必须 以现有安全技术为依托。深入研究新型的大数据安全技术,比如同态加密技术 等。确保大数据在存储、处理,传输等过程的安全性,在充分挖掘数据价值的 同时保护用户隐私,从而避免因大数据安全问题而给用户的利益造成损失。需 要进一步完善大数据安全相关法律体系建设,对数据权属界定、数据流动管理、 个人信息保护等各种间题,给出明确规定。需要创新研制和推广大数据安全保 护的产品和服务,基于大数据研制网络安全产品和服务,推动大数据安全市场 发展,保障大数据时代的信息安全。 7
7 频率。 大数据在保障网络安全方面也具有重要作用。当前,各种网络攻击频发, 攻击过程越来越复杂,网络攻击手段变得越来越隐蔽,传统的入侵检测、防御 等网络安全产品往往难以奏效,采用大数据技术来检测高级网络攻击成为一种 趋势。当前,为了利用大数据来加强企业信息安全能力,包括采用大数据技术 来实现网络安全威胁信息分析,采用基于大数据的深度学习方法来替代传统入 侵检测方法中的攻击特征模式提取,采用大数据技术来实现网络安全态势感知, 以及对多步复杂网络攻击的检测、溯源和场景重现,都已开始应用。可以说, 大数据技术将重塑未来的网络安全技术和产业发展趋势。 未来,在大数据应用的飞速发展过程中,大数据安全问题将始终伴随左右。 针对大数据安全问题和安全风险,必须加大大数据安全技术的研究力度,必须 以现有安全技术为依托,深入研究新型的大数据安全技术,比如同态加密技术 等。确保大数据在存储、处理、传输等过程的安全性,在充分挖掘数据价值的 同时保护用户隐私,从而避免因大数据安全问题而给用户的利益造成损失。需 要进一步完善大数据安全相关法律体系建设,对数据权属界定、数据流动管理、 个人信息保护等各种问题,给出明确规定。需要创新研制和推广大数据安全保 护的产品和服务,基于大数据研制网络安全产品和服务,推动大数据安全市场 发展,保障大数据时代的信息安全
第3章大数据安全挑战 大数据安全风险伴随大数据应用而生。我们在亭受大数据福祉的同时,也 面临着前所未有的安全桃战。随着互联网、大数据应用的犀发,系统道受攻击 数据丢失和个人信息淮露的事件时有发生,而地下数据交易黑灰产也导致了大 量的数据滥用和网铬诈编事件。这些安全事件,有的适成个人的财产损失,有 的引发恶性社会事件,有的甚至危及国家安全。可以说当前环境下,大数据平 台与技术、大数据环境下的数据和个人信息、大数据应用等方面都面临着极大 的安全挑战,这些桃战不仅对个人有着重大影响,更直接威胁到社会的繁荣稳 定和国家的安全利益. 3.1大数据技术和平台安全挑战 伴随着大数据的飞速发展,各种大数据技术层出不穷,新的技术架构、支 撑平台和大数据款件不新涌现,大数据安全技术和平台发展也面临着新的挑战。 3.1.1传统安全措施难以适配 大数据的一个显著特点是数量巨大,即“Volune”,指的是要采集、存储和 处理体量非常大的数据,同时,大数据还有另外一个特点是类型多,即 “Variety“,指的是数据种类和来源非常多,类型上包括结构化,半结构化和 非结构化数据,来源上包括生产、财务等业务数据,也包括文本、音频、视频 图片、地理位置信息等。这些海量、多源、异构等大数据特征导致其与传统封 闭环境下的数据应用安全环境有很大区别。 大数据技术架构复杂,大数据应用一般采用底层复杂、开放的分布式计算 和存储架构为其提供海量数据分布式存储和高效计算服务,这些新的技术和架 构使得大数据应用的系统边界变得模糊,传统基于边界的安全保护措施将变得 不再有效。如在大数据系统中,数据一般都是分布式存储的,数据可能动态分 散在很多个不同的存储设备、甚至不同的物理地点存储,这样导致难以准确划 定传统意义上的每个数据集的“边界”,传统的基于网关模式的防护手段也就失 去了安全防护效果。 同时,大数据系统表现为系统的系统(Systen of System),其分有式计算 安全问圈也将显得更加突出。在分布式计算环境下,计算涉及的软件和硬件较 多,任何一点遭受故障或攻击,都可能导致整体安全出现问题。攻击者也可以 从防护能力最弱的节点着手进行突破,通过破坏计算节点、篡改传输数据和渗 透攻击,最终达到破坏或控制整个分布式系统的目的,传统基于单点的认证鉴 别、访问控制和安全审计的手段将面临巨大的挑战。 此外,传统的安全检测技术能够将大量的日志数据集中到一起,进行整体 性的安全分析,试图从中发现安全事件。然而,这些安全检测技术往往存在误 报过多的问题,随着大数据系统建设,日志数据规模增大,数据的种类将更加 丰富。过多的误判会造成安全检测系统失效,降低安全检测能力。因此,在大 数据环境下,大数据安全审计检测方面也面临着巨大的挑战。随着大数据技术 的应用,为了保证大数据安全,需要进一步提高安全检测技术能力,提升安全
8 第 3 章 大数据安全挑战 大数据安全风险伴随大数据应用而生。我们在享受大数据福祉的同时,也 面临着前所未有的安全挑战。随着互联网、大数据应用的爆发,系统遭受攻击、 数据丢失和个人信息泄露的事件时有发生,而地下数据交易黑灰产也导致了大 量的数据滥用和网络诈骗事件。这些安全事件,有的造成个人的财产损失,有 的引发恶性社会事件,有的甚至危及国家安全。可以说当前环境下,大数据平 台与技术、大数据环境下的数据和个人信息、大数据应用等方面都面临着极大 的安全挑战,这些挑战不仅对个人有着重大影响,更直接威胁到社会的繁荣稳 定和国家的安全利益。 3.1 大数据技术和平台安全挑战 伴随着大数据的飞速发展,各种大数据技术层出不穷,新的技术架构、支 撑平台和大数据软件不断涌现,大数据安全技术和平台发展也面临着新的挑战。 3.1.1 传统安全措施难以适配 大数据的一个显著特点是数量巨大,即“Volume”,指的是要采集、存储和 处理体量非常大的数据。同时,大数据还有另外一个特点是类型多,即 “Variety”,指的是数据种类和来源非常多,类型上包括结构化、半结构化和 非结构化数据,来源上包括生产、财务等业务数据,也包括文本、音频、视频、 图片、地理位置信息等。这些海量、多源、异构等大数据特征导致其与传统封 闭环境下的数据应用安全环境有很大区别。 大数据技术架构复杂,大数据应用一般采用底层复杂、开放的分布式计算 和存储架构为其提供海量数据分布式存储和高效计算服务,这些新的技术和架 构使得大数据应用的系统边界变得模糊,传统基于边界的安全保护措施将变得 不再有效。如在大数据系统中,数据一般都是分布式存储的,数据可能动态分 散在很多个不同的存储设备、甚至不同的物理地点存储,这样导致难以准确划 定传统意义上的每个数据集的“边界”,传统的基于网关模式的防护手段也就失 去了安全防护效果。 同时,大数据系统表现为系统的系统(System of System),其分布式计算 安全问题也将显得更加突出。在分布式计算环境下,计算涉及的软件和硬件较 多,任何一点遭受故障或攻击,都可能导致整体安全出现问题。攻击者也可以 从防护能力最弱的节点着手进行突破,通过破坏计算节点、篡改传输数据和渗 透攻击,最终达到破坏或控制整个分布式系统的目的。传统基于单点的认证鉴 别、访问控制和安全审计的手段将面临巨大的挑战。 此外,传统的安全检测技术能够将大量的日志数据集中到一起,进行整体 性的安全分析,试图从中发现安全事件。然而,这些安全检测技术往往存在误 报过多的问题,随着大数据系统建设,日志数据规模增大,数据的种类将更加 丰富。过多的误判会造成安全检测系统失效,降低安全检测能力。因此,在大 数据环境下,大数据安全审计检测方面也面临着巨大的挑战。随着大数据技术 的应用,为了保证大数据安全,需要进一步提高安全检测技术能力,提升安全
检测技术在大数据时代的适用性 3.12平台安全机制严重不足 现有大数据应用中多采用开源的大数据管理平台和技术,如基于aop生 态架构的HBase,/ive、Cassandra/Spark、MongoDB等。这些平台和技术在设计 之初,大部分考虑是在可信的内部网络中使用,对大数据应用用户的身份整别 授权访问以及安全审计等安全功能需求考虑较少。近年来,随着更新发展,这 些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施, 如调用外部Kerberos身份鉴别姐件、扩展访问控制管理能力、允许使用存储加 密以及增加安全审计功能等。即便如此,大部分大数据软件仍燃是围绕大容量、 高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考 虑不足,甚至没有良好的安全实现。 同时,大数据系统建设过程中,现有的基础软件和应用多采用第三方开源 组件,这些开源系统本身功能复杂、模块众多、复杂性很高,因此对使用人员 的技术夏求较高,稍有不慎,可能导致系统湖溃或数据丢失。在开源款件开发 和维护过程中,由于软件管理松散、开发人员混杂,软件在发布前几乎都没有 经过权威和严格的安全测试,使得这些软件大都缺乏有效的漏洞管理和恐意后 门防范能力。如2017年6月,ad00p的发行版本被发现存在安全漏润,由于该 软件没有对输入进行严格的验证,导致攻击者可以利用该漏制攻击系统,并获 得最高管理员权限。 物联网技术的快速发展,使得当前设备连接和数据规模都达到了前所未有 的程度,不仅手机、电脑、电视机等传统信息化设各己连入网铭,汽车、家用 电器和工厂设备、基础设范等也将逐步成为互联网的终端。而在这些新终编的 安全防护上,现有的安全防护体系尚不成熟,有效的安全手段还不多,急需研 发和应用更好的安全保护机制。 3.13应用访问控制逾加困难 大数据应用的特点之一是数据类型复杂,应用范围广泛,它通常要为来白 不同组织或部门、不同身份与目的的用户提供服务。因而随着大数据应用的发 展,其在应用访问控制方面也面临着巨大的挑战。 首先是用户身份鉴别。大数据只有经过开放和流动,才能创造出更大的价 值。目前,政府部门、央企及其它重要单位的数据正在逐步开放,或开放给组 织内部不同部门使用,或开放给不同政府部门和上级监管部门,或者开故给定 向企业和社会公众使用。数据的开放共享意味着会有更多的用户可以访问数据, 大量的用户以及复杂的共享应用环境,导致大数据系统需要更准确地识别和鉴 别用户身份,传统基于集中数据存储的用户身份鉴别难以满足安全需求。 其次是用户访问控制。目前常见的用户访问控制是基于用户身份或角色进 行的。而在大数据应用场景中,由于存在大量未知的用户和数据,顶先设置角 色及权限十分困难。即使可以事先对用户权限分类,但由于用户角色众多,难 以精细化和细粒度地控制每个角色的实际权限,从而导致无法准确为每个用户 指定其可以访问的数据范田。 再次是用户数据安全审计和追踪测源。针对大数据量时的细粒度数据审计
9 检测技术在大数据时代的适用性。 3.1.2 平台安全机制严重不足 现有大数据应用中多采用开源的大数据管理平台和技术,如基于 Hadoop 生 态架构的 HBase/Hive、Cassandra/Spark、MongoDB 等。这些平台和技术在设计 之初,大部分考虑是在可信的内部网络中使用,对大数据应用用户的身份鉴别、 授权访问以及安全审计等安全功能需求考虑较少。近年来,随着更新发展,这 些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施, 如调用外部 Kerberos 身份鉴别组件、扩展访问控制管理能力、允许使用存储加 密以及增加安全审计功能等。即便如此,大部分大数据软件仍然是围绕大容量、 高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考 虑不足,甚至没有良好的安全实现。 同时,大数据系统建设过程中,现有的基础软件和应用多采用第三方开源 组件。这些开源系统本身功能复杂、模块众多、复杂性很高,因此对使用人员 的技术要求较高,稍有不慎,可能导致系统崩溃或数据丢失。在开源软件开发 和维护过程中,由于软件管理松散、开发人员混杂,软件在发布前几乎都没有 经过权威和严格的安全测试,使得这些软件大都缺乏有效的漏洞管理和恶意后 门防范能力。如 2017 年 6 月,Hadoop 的发行版本被发现存在安全漏洞,由于该 软件没有对输入进行严格的验证,导致攻击者可以利用该漏洞攻击系统,并获 得最高管理员权限。 物联网技术的快速发展,使得当前设备连接和数据规模都达到了前所未有 的程度,不仅手机、电脑、电视机等传统信息化设备已连入网络,汽车、家用 电器和工厂设备、基础设施等也将逐步成为互联网的终端。而在这些新终端的 安全防护上,现有的安全防护体系尚不成熟,有效的安全手段还不多,急需研 发和应用更好的安全保护机制。 3.1.3 应用访问控制愈加困难 大数据应用的特点之一是数据类型复杂、应用范围广泛,它通常要为来自 不同组织或部门、不同身份与目的的用户提供服务。因而随着大数据应用的发 展,其在应用访问控制方面也面临着巨大的挑战。 首先是用户身份鉴别。大数据只有经过开放和流动,才能创造出更大的价 值。目前,政府部门、央企及其它重要单位的数据正在逐步开放,或开放给组 织内部不同部门使用,或开放给不同政府部门和上级监管部门,或者开放给定 向企业和社会公众使用。数据的开放共享意味着会有更多的用户可以访问数据。 大量的用户以及复杂的共享应用环境,导致大数据系统需要更准确地识别和鉴 别用户身份,传统基于集中数据存储的用户身份鉴别难以满足安全需求。 其次是用户访问控制。目前常见的用户访问控制是基于用户身份或角色进 行的。而在大数据应用场景中,由于存在大量未知的用户和数据,预先设置角 色及权限十分困难。即使可以事先对用户权限分类,但由于用户角色众多,难 以精细化和细粒度地控制每个角色的实际权限,从而导致无法准确为每个用户 指定其可以访问的数据范围。 再次是用户数据安全审计和追踪溯源。针对大数据量时的细粒度数据审计
能力不足,用户访问控制策略需要创新。当前常见的操作系统审计、网铬审计、 日志审计等软件在审计粒度上较粗,不能完全满足复杂大数据应用场景下审计 多种数据源日志的需求,尚难以达到良好的潮源效果, 3.1.4基础密码技术亟待突破 随着大数据的发展,数据的处理环境、相关角色和传统的数据处理有了很 大的不同,如在大数据应用中,常常使用云计算、分布式等环境来处理数据, 相关的角色包括数据所有者、应用服务提供者等。在这种情况下,数据可能被 云服务提供商或其他非数据所有者访问和处理,他们甚至能够删除和舞改数据, 这对数据的保密性和完整性保护方面带来了极大的安全风险。 密玛技术作为信息安全技术的基石,也是实现大数据安全保护与共享的基 础。面对日益发展的云计算和大数据应用,现有密码算法在适用场景、计算效 率以及密钥管理等方面存在明显不足。为此,针对数据权益保护、多方计算、 访问控制、可追测性等多方面的安全需求,近年来提出了大量的用于大数据安 全保护的密码技术,包括同态加密算法、完整性校验、密文搜索和密文数据去 重等,以及相关算法和机制的高效实现技术。为更好地保护大数据,这些基础 密码技术亟待突破。 如在上世纪七十年代提出的同态加密思想,由于这种加密算法可以直接对 加密数据进行各种运算,运算后数据再解密的结果和对原始未加密数据进行同 样运算的结果是一致的,因比同态加密非常适合于云计算环境中,可以从根本 上解决特数据及其操作委托给第三方时的保密问圈。尽管近几年来,同态加密 技术已经得到了较大的发展,但是离大规模实用还有一定距离。考虑到应用需 求和诱人的前景,同态加密算法亟待得到突破性创新发展。 3.2数据安全和个人信息保护挑战 大数据中包含了大量的数据,而其中又蕴含着巨大的价值,数据安全和个 人信息保护是大数据应用和发展中必须面临的重大挑战。 32.1数据安全保护难度加大 大数据拥有大量的数据,使得其史容易成为网络攻击的目标。在开故的网 络化社会,蕴含着海量数据和潜在价值的大数据更受黑客青眯,近年来也频繁 爆发却箱账号、杜保信息、银行卡号等数据大量被窃的安全事件。分布式的系 统部署、开放的网络环境、复杂的数据应用和众多的用户访问,都使得大数据 在保酱性、完整性、可用性等方面面临更大的挑战。 历史上发生过多起大数据平台数据准露的安全事件。如2016年年底,因系 统漏洞和配置问题,全球范围内数以万计的kgB系统造到攻击,数百B的 数据被攻击者下载,涉及包括医疗、金陆、旅游在内的诸多行业。一部分攻击 者甚至在入侵NongoDB数据库后,将数据清除并向受害者索取赎金,又如在 2017年6月,因15服务器配置不当,导致全球近4500台服务器遭受攻击, 沿露数据量高达5120TB. 针对数据的安全防护,应当围绕数据的采集、传输、存储、处理、交换、 10
10 能力不足,用户访问控制策略需要创新。当前常见的操作系统审计、网络审计、 日志审计等软件在审计粒度上较粗,不能完全满足复杂大数据应用场景下审计 多种数据源日志的需求,尚难以达到良好的溯源效果。 3.1.4 基础密码技术亟待突破 随着大数据的发展,数据的处理环境、相关角色和传统的数据处理有了很 大的不同,如在大数据应用中,常常使用云计算、分布式等环境来处理数据, 相关的角色包括数据所有者、应用服务提供者等。在这种情况下,数据可能被 云服务提供商或其他非数据所有者访问和处理,他们甚至能够删除和篡改数据, 这对数据的保密性和完整性保护方面带来了极大的安全风险。 密码技术作为信息安全技术的基石,也是实现大数据安全保护与共享的基 础。面对日益发展的云计算和大数据应用,现有密码算法在适用场景、计算效 率以及密钥管理等方面存在明显不足。为此,针对数据权益保护、多方计算、 访问控制、可追溯性等多方面的安全需求,近年来提出了大量的用于大数据安 全保护的密码技术,包括同态加密算法、完整性校验、密文搜索和密文数据去 重等,以及相关算法和机制的高效实现技术。为更好地保护大数据,这些基础 密码技术亟待突破。 如在上世纪七十年代提出的同态加密思想,由于这种加密算法可以直接对 加密数据进行各种运算,运算后数据再解密的结果和对原始未加密数据进行同 样运算的结果是一致的,因此同态加密非常适合于云计算环境中,可以从根本 上解决将数据及其操作委托给第三方时的保密问题。尽管近几年来,同态加密 技术已经得到了较大的发展,但是离大规模实用还有一定距离。考虑到应用需 求和诱人的前景,同态加密算法亟待得到突破性创新发展。 3.2 数据安全和个人信息保护挑战 大数据中包含了大量的数据,而其中又蕴含着巨大的价值。数据安全和个 人信息保护是大数据应用和发展中必须面临的重大挑战。 3.2.1 数据安全保护难度加大 大数据拥有大量的数据,使得其更容易成为网络攻击的目标。在开放的网 络化社会,蕴含着海量数据和潜在价值的大数据更受黑客青睐,近年来也频繁 爆发邮箱账号、社保信息、银行卡号等数据大量被窃的安全事件。分布式的系 统部署、开放的网络环境、复杂的数据应用和众多的用户访问,都使得大数据 在保密性、完整性、可用性等方面面临更大的挑战。 历史上发生过多起大数据平台数据泄露的安全事件。如 2016 年年底,因系 统漏洞和配置问题,全球范围内数以万计的 MongoDB 系统遭到攻击,数百 TB 的 数据被攻击者下载,涉及包括医疗、金融、旅游在内的诸多行业。一部分攻击 者甚至在入侵 MongoDB 数据库后,将数据清除并向受害者索取赎金。又如在 2017 年 6 月,因 HDFS 服务器配置不当,导致全球近 4500 台服务器遭受攻击, 泄露数据量高达 5120 TB。 针对数据的安全防护,应当围绕数据的采集、传输、存储、处理、交换