第3章大数据安全挑战大数据安全风险伴随大数据应用而生。我们在享受大数据福证的同时,也面临着前所未有的安全挑战。随着互联网、大数据应用的爆发,系统遭受攻击、数据丢失和个人信息泄露的事件时有发生,而地下数据交易黑灰产也导致了大量的数据滥用和网络诈骗事件。这些安全事件,有的造成个人的财产损失,有的引发恶性社会事件,有的甚至危及国家安全。可以说当前环境下,大数据平台与技术、大数据环境下的数据和个人信息、大数据应用等方面都面临着极大的安全挑战,这些挑战不仅对个人有着重大影响,更直接威胁到社会的繁荣稳定和国家的安全利益。3.1大数据技术和平台安全挑战伴随着大数据的飞速发展,各种大数据技术层出不穷,新的技术架构、支撑平台和大数据软件不断涌现,大数据安全技术和平台发展也面临着新的挑战。3.1.1传统安全措施难以适配大数据的一个显著特点是数量巨大,即“Volume”,指的是要采集、存储和处理体量非常大的数据。同时,大数据还有另外一个特点是类型多,即“Variety”,指的是数据种类和来源非常多,类型上包括结构化、半结构化和非结构化数据,来源上包括生产、财务等业务数据,也包括文本、音频、视频,图片、地理位置信息等。这些海量、多源、异构等大数据特征导致其与传统封团环境下的数据应用安全环境有很大区别。大数据技术架构复杂,大数据应用一般采用底层复杂、开放的分布式计算和存储架构为其提供海量数据分布式存储和高效计算服务,这些新的技术和架构使得大数据应用的系统边界变得模糊,传统基于边界的安全保护措施将变得不再有效。如在大数据系统中,数据一般都是分布式存储的,数据可能动态分散在很多个不同的存储设备、甚至不同的物理地点存储,这样导致难以准确划定传统意义上的每个数据集的“边界”,传统的基于网关模式的防护手段也就失去了安全防护效果。同时,大数据系统表现为系统的系统(SystemofSystem),其分布式计算安全问题也将显得更加突出。在分布式计算环境下,计算涉及的软件和硬件较多,任何一点遭受故障或攻击,都可能导致整体安全出现问题。攻击者也可以从防护能力最弱的节点着手进行突破,通过破坏计算节点、篡改传输数据和渗透攻击,最终达到破坏或控制整个分布式系统的目的。传统基于单点的认证鉴别、访问控制和安全审计的手段将面临巨大的挑战。此外,传统的安全检测技术能够将大量的日志数据集中到一起,进行整体性的安全分析,试图从中发现安全事件。然而,这些安全检测技术往往存在误报过多的问题,随着大数据系统建设,日志数据规模增大,数据的种类将更加丰富。过多的误判会造成安全检测系统失效,降低安全检测能力。因此,在大数据环境下,大数据安全审计检测方面也面临着巨大的挑战。随着大数据技术的应用,为了保证大数据安全,需要进一步提高安全检测技术能力,提升安全8
8 第 3 章 大数据安全挑战 大数据安全风险伴随大数据应用而生。我们在享受大数据福祉的同时,也 面临着前所未有的安全挑战。随着互联网、大数据应用的爆发,系统遭受攻击、 数据丢失和个人信息泄露的事件时有发生,而地下数据交易黑灰产也导致了大 量的数据滥用和网络诈骗事件。这些安全事件,有的造成个人的财产损失,有 的引发恶性社会事件,有的甚至危及国家安全。可以说当前环境下,大数据平 台与技术、大数据环境下的数据和个人信息、大数据应用等方面都面临着极大 的安全挑战,这些挑战不仅对个人有着重大影响,更直接威胁到社会的繁荣稳 定和国家的安全利益。 3.1 大数据技术和平台安全挑战 伴随着大数据的飞速发展,各种大数据技术层出不穷,新的技术架构、支 撑平台和大数据软件不断涌现,大数据安全技术和平台发展也面临着新的挑战。 3.1.1 传统安全措施难以适配 大数据的一个显著特点是数量巨大,即“Volume”,指的是要采集、存储和 处理体量非常大的数据。同时,大数据还有另外一个特点是类型多,即 “Variety”,指的是数据种类和来源非常多,类型上包括结构化、半结构化和 非结构化数据,来源上包括生产、财务等业务数据,也包括文本、音频、视频、 图片、地理位置信息等。这些海量、多源、异构等大数据特征导致其与传统封 闭环境下的数据应用安全环境有很大区别。 大数据技术架构复杂,大数据应用一般采用底层复杂、开放的分布式计算 和存储架构为其提供海量数据分布式存储和高效计算服务,这些新的技术和架 构使得大数据应用的系统边界变得模糊,传统基于边界的安全保护措施将变得 不再有效。如在大数据系统中,数据一般都是分布式存储的,数据可能动态分 散在很多个不同的存储设备、甚至不同的物理地点存储,这样导致难以准确划 定传统意义上的每个数据集的“边界”,传统的基于网关模式的防护手段也就失 去了安全防护效果。 同时,大数据系统表现为系统的系统(System of System),其分布式计算 安全问题也将显得更加突出。在分布式计算环境下,计算涉及的软件和硬件较 多,任何一点遭受故障或攻击,都可能导致整体安全出现问题。攻击者也可以 从防护能力最弱的节点着手进行突破,通过破坏计算节点、篡改传输数据和渗 透攻击,最终达到破坏或控制整个分布式系统的目的。传统基于单点的认证鉴 别、访问控制和安全审计的手段将面临巨大的挑战。 此外,传统的安全检测技术能够将大量的日志数据集中到一起,进行整体 性的安全分析,试图从中发现安全事件。然而,这些安全检测技术往往存在误 报过多的问题,随着大数据系统建设,日志数据规模增大,数据的种类将更加 丰富。过多的误判会造成安全检测系统失效,降低安全检测能力。因此,在大 数据环境下,大数据安全审计检测方面也面临着巨大的挑战。随着大数据技术 的应用,为了保证大数据安全,需要进一步提高安全检测技术能力,提升安全
检测技术在大数据时代的适用性。3.1.2平台安全机制严重不足现有大数据应用中多采用开源的大数据管理平台和技术,如基于Hadoop生态架构的HBase/Hive、Cassandra/Spark、MongoDB等。这些平台和技术在设计之初,大部分考虑是在可信的内部网络中使用,对大数据应用用户的身份鉴别、授权访问以及安全审计等安全功能需求考虑较少。近年来,随着更新发展,这些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施如调用外部Kerberos身份鉴别组件、扩展访问控制管理能力、允许使用存储加密以及增加安全审计功能等。即便如此,大部分大数据软件仍然是围绕大容量、高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考虑不足,甚至没有良好的安全实现。同时,大数据系统建设过程中,现有的基础软件和应用多采用第三方开源组件。这些开源系统本身功能复杂、模块众多、复杂性很高,因此对使用人员的技术要求较高,稍有不慎,可能导致系统崩溃或数据丢失。在开源软件开发和维护过程中,由于软件管理松散、开发人员混杂,软件在发布前几乎都没有经过权威和严格的安全测试,使得这些软件大都缺乏有效的漏洞管理和恶意后门防范能力。如2017年6月,Hadoop的发行版本被发现存在安全漏洞,由于该软件没有对输入进行严格的验证,导致攻击者可以利用该漏洞攻击系统,并获得最高管理员权限。物联网技术的快速发展,使得当前设备连接和数据规模都达到了前所未有的程度,不仅手机、电脑、电视机等传统信息化设备已连入网络,汽车、家用电器和工厂设备、基础设施等也将逐步成为互联网的终端。而在这些新终端的安全防护上,现有的安全防护体系尚不成熟,有效的安全手段还不多,急需研发和应用更好的安全保护机制。3.1.3应用访问控制愈加困难大数据应用的特点之一是数据类型复杂、应用范围广泛,它通常要为来自不同组织或部门、不同身份与目的的用户提供服务。因而随着大数据应用的发展,其在应用访问控制方面也面临着巨大的挑战。首先是用户身份鉴别。大数据只有经过开放和流动,才能创造出更大的价值。目前,政府部门、央企及其它重要单位的数据正在逐步开放,或开放给组织内部不同部门使用,或开放给不同政府部门和上级监管部门,或者开放给定向企业和社会公众使用。数据的开放共享意味着会有更多的用户可以访问数据。大量的用户以及复杂的共享应用环境,导致大数据系统需要更准确地识别和鉴别用户身份,传统基于集中数据存储的用户身份鉴别难以满足安全需求。其次是用户访问控制。目前常见的用户访问控制是基于用户身份或角色进行的。而在大数据应用场景中,由于存在大量未知的用户和数据,预先设置角色及权限十分困难。即使可以事先对用户权限分类,但由于用户角色众多,难以精细化和细粒度地控制每个角色的实际权限,从而导致无法准确为每个用户指定其可以访问的数据范围。再次是用户数据安全审计和追踪溯源。针对大数据量时的细粒度数据审计9
9 检测技术在大数据时代的适用性。 3.1.2 平台安全机制严重不足 现有大数据应用中多采用开源的大数据管理平台和技术,如基于 Hadoop 生 态架构的 HBase/Hive、Cassandra/Spark、MongoDB 等。这些平台和技术在设计 之初,大部分考虑是在可信的内部网络中使用,对大数据应用用户的身份鉴别、 授权访问以及安全审计等安全功能需求考虑较少。近年来,随着更新发展,这 些软件通过调用外部安全组件、修补安全补丁的方式逐步增加了一些安全措施, 如调用外部 Kerberos 身份鉴别组件、扩展访问控制管理能力、允许使用存储加 密以及增加安全审计功能等。即便如此,大部分大数据软件仍然是围绕大容量、 高速率的数据处理功能开发,而缺乏原生的安全特性,在整体安全规划方面考 虑不足,甚至没有良好的安全实现。 同时,大数据系统建设过程中,现有的基础软件和应用多采用第三方开源 组件。这些开源系统本身功能复杂、模块众多、复杂性很高,因此对使用人员 的技术要求较高,稍有不慎,可能导致系统崩溃或数据丢失。在开源软件开发 和维护过程中,由于软件管理松散、开发人员混杂,软件在发布前几乎都没有 经过权威和严格的安全测试,使得这些软件大都缺乏有效的漏洞管理和恶意后 门防范能力。如 2017 年 6 月,Hadoop 的发行版本被发现存在安全漏洞,由于该 软件没有对输入进行严格的验证,导致攻击者可以利用该漏洞攻击系统,并获 得最高管理员权限。 物联网技术的快速发展,使得当前设备连接和数据规模都达到了前所未有 的程度,不仅手机、电脑、电视机等传统信息化设备已连入网络,汽车、家用 电器和工厂设备、基础设施等也将逐步成为互联网的终端。而在这些新终端的 安全防护上,现有的安全防护体系尚不成熟,有效的安全手段还不多,急需研 发和应用更好的安全保护机制。 3.1.3 应用访问控制愈加困难 大数据应用的特点之一是数据类型复杂、应用范围广泛,它通常要为来自 不同组织或部门、不同身份与目的的用户提供服务。因而随着大数据应用的发 展,其在应用访问控制方面也面临着巨大的挑战。 首先是用户身份鉴别。大数据只有经过开放和流动,才能创造出更大的价 值。目前,政府部门、央企及其它重要单位的数据正在逐步开放,或开放给组 织内部不同部门使用,或开放给不同政府部门和上级监管部门,或者开放给定 向企业和社会公众使用。数据的开放共享意味着会有更多的用户可以访问数据。 大量的用户以及复杂的共享应用环境,导致大数据系统需要更准确地识别和鉴 别用户身份,传统基于集中数据存储的用户身份鉴别难以满足安全需求。 其次是用户访问控制。目前常见的用户访问控制是基于用户身份或角色进 行的。而在大数据应用场景中,由于存在大量未知的用户和数据,预先设置角 色及权限十分困难。即使可以事先对用户权限分类,但由于用户角色众多,难 以精细化和细粒度地控制每个角色的实际权限,从而导致无法准确为每个用户 指定其可以访问的数据范围。 再次是用户数据安全审计和追踪溯源。针对大数据量时的细粒度数据审计
能力不足,用户访问控制策略需要创新。当前常见的操作系统审计、网络审计、日志审计等软件在审计粒度上较粗,不能完全满足复杂大数据应用场景下审计多种数据源日志的需求,尚难以达到良好的溯源效果。3.1.4基础密码技术驱待突破随着大数据的发展,数据的处理环境、相关角色和传统的数据处理有了很大的不同,如在大数据应用中,常常使用云计算、分布式等环境来处理数据,相关的角色包括数据所有者、应用服务提供者等。在这种情况下,数据可能被云服务提供商或其他非数据所有者访问和处理,他们甚至能够删除和篡改数据这对数据的保密性和完整性保护方面带来了极大的安全风险。密码技术作为信息安全技术的基石,也是实现大数据安全保护与共享的基础。面对日益发展的云计算和大数据应用,现有密码算法在适用场景、计算效率以及密钥管理等方面存在明显不足。为此,针对数据权益保护、多方计算、访问控制、可追溯性等多方面的安全需求,近年来提出了大量的用于大数据安全保护的密码技术,包括同态加密算法、完整性校验、密文搜索和密文数据去重等,以及相关算法和机制的高效实现技术。为更好地保护大数据,这些基础密码技术呕待突破。如在上世纪七十年代提出的同态加密思想,由于这种加密算法可以直接对加密数据进行各种运算,运算后数据再解密的结果和对原始未加密数据进行同样运算的结果是一致的,因此同态加密非常适合于云计算环境中,可以从根本上解决将数据及其操作委托给第三方时的保密问题。尽管近几年来,同态加密技术已经得到了较大的发展,但是离大规模实用还有一定距离。考虑到应用需求和诱人的前景,同态加密算法驱待得到突破性创新发展。3.2数据安全和个人信息保护挑战大数据中包含了大量的数据,而其中又蕴含着巨大的价值。数据安全和个人信息保护是大数据应用和发展中必须面临的重大挑战。3.2.1数据安全保护难度加大大数据拥有大量的数据,使得其更容易成为网络攻击的目标。在开放的网络化社会,蕴含着海量数据和潜在价值的大数据更受黑客青,近年来也频繁爆发邮箱账号、社保信息、银行卡号等数据大量被窃的安全事件。分布式的系统部署、开放的网络环境、复杂的数据应用和众多的用户访问,都使得大数据在保密性、完整性、可用性等方面面临更大的挑战。历史上发生过多起大数据平台数据泄露的安全事件。如2016年年底,因系统漏洞和配置问题,全球范围内数以万计的MongoDB系统遭到攻击,数百TB的数据被攻击者下载,涉及包括医疗、金融、旅游在内的诸多行业。一部分攻击者甚至在入侵MongoDB数据库后,将数据清除并向受害者索取赎金。又如在2017年6月,因HDFS服务器配置不当,导致全球近4500台服务器遭受攻击,泄露数据量高达5120TB。针对数据的安全防护,应当围绕数据的采集、传输、存储、处理、交换、10
10 能力不足,用户访问控制策略需要创新。当前常见的操作系统审计、网络审计、 日志审计等软件在审计粒度上较粗,不能完全满足复杂大数据应用场景下审计 多种数据源日志的需求,尚难以达到良好的溯源效果。 3.1.4 基础密码技术亟待突破 随着大数据的发展,数据的处理环境、相关角色和传统的数据处理有了很 大的不同,如在大数据应用中,常常使用云计算、分布式等环境来处理数据, 相关的角色包括数据所有者、应用服务提供者等。在这种情况下,数据可能被 云服务提供商或其他非数据所有者访问和处理,他们甚至能够删除和篡改数据, 这对数据的保密性和完整性保护方面带来了极大的安全风险。 密码技术作为信息安全技术的基石,也是实现大数据安全保护与共享的基 础。面对日益发展的云计算和大数据应用,现有密码算法在适用场景、计算效 率以及密钥管理等方面存在明显不足。为此,针对数据权益保护、多方计算、 访问控制、可追溯性等多方面的安全需求,近年来提出了大量的用于大数据安 全保护的密码技术,包括同态加密算法、完整性校验、密文搜索和密文数据去 重等,以及相关算法和机制的高效实现技术。为更好地保护大数据,这些基础 密码技术亟待突破。 如在上世纪七十年代提出的同态加密思想,由于这种加密算法可以直接对 加密数据进行各种运算,运算后数据再解密的结果和对原始未加密数据进行同 样运算的结果是一致的,因此同态加密非常适合于云计算环境中,可以从根本 上解决将数据及其操作委托给第三方时的保密问题。尽管近几年来,同态加密 技术已经得到了较大的发展,但是离大规模实用还有一定距离。考虑到应用需 求和诱人的前景,同态加密算法亟待得到突破性创新发展。 3.2 数据安全和个人信息保护挑战 大数据中包含了大量的数据,而其中又蕴含着巨大的价值。数据安全和个 人信息保护是大数据应用和发展中必须面临的重大挑战。 3.2.1 数据安全保护难度加大 大数据拥有大量的数据,使得其更容易成为网络攻击的目标。在开放的网 络化社会,蕴含着海量数据和潜在价值的大数据更受黑客青睐,近年来也频繁 爆发邮箱账号、社保信息、银行卡号等数据大量被窃的安全事件。分布式的系 统部署、开放的网络环境、复杂的数据应用和众多的用户访问,都使得大数据 在保密性、完整性、可用性等方面面临更大的挑战。 历史上发生过多起大数据平台数据泄露的安全事件。如 2016 年年底,因系 统漏洞和配置问题,全球范围内数以万计的 MongoDB 系统遭到攻击,数百 TB 的 数据被攻击者下载,涉及包括医疗、金融、旅游在内的诸多行业。一部分攻击 者甚至在入侵 MongoDB 数据库后,将数据清除并向受害者索取赎金。又如在 2017 年 6 月,因 HDFS 服务器配置不当,导致全球近 4500 台服务器遭受攻击, 泄露数据量高达 5120 TB。 针对数据的安全防护,应当围绕数据的采集、传输、存储、处理、交换
销毁等生命周期阶段进行。针对不同阶段的不同特点,应当采取适合该阶段的安全技术进行保护。如在数据存储阶段,大数据应用中的数据类型包括结构化、半结构化和非结构化数据,且半结构化和非结构化数据占据相当大的比例。因此在存储大数据时,不仅仅要正确使用关系型数据库已有的安全机制,还应当为半结构化和非结构化数据存储设计安全的存储保护机制。3.2.2个人信息泄露风险加剧由于大数据系统中普遍存在大量的个人信息,在发生数据滥用、内部偷窃、网络攻击等安全事件时,常常伴随着个人信息泄露。另一方面,随着数据挖掘、机器学习、人工智能等技术的研究和应用,使得大数据分析的能力越来越强大,由于海量数据本身就蕴藏着价值,在对大数据中多源数据进行综合分析时,分析人员更容易通过关联分析挖掘出更多的个人信息,从而进一步加剧了个人信息泄露的风险。在大数据时代,要对数据进行安全保护,既要注意防止因数据丢失而直接导致的个人信息泄露,也要注意防止因挖掘分析而间接导致的个人信息泄露,这种综合保护需求带来的安全挑战是巨大的。在大数据时代,不能禁正外部人员挖掘公开、半公开信息,即使想限制数据共享对象、合作伙伴挖掘共享的信息也很难做到。目前,各社交网站均不同程度地开放其所产生的实时数据,其中既可能包括商务、业务数据,也可能包括个人信息。市场上已经出现了许多监测数据的数据分析机构。这些机构通过对数据的挖掘分析,以及和历史数据对比分析、和其他手段得到的公开、私有数据进行综合挖掘分析,可能得到非常多的新信息,如分析某个地区经济趋势、某种流行病的医学分析,甚至直接分析出某个人的具体个人信息来。个人信息泄露产生的后果将远比一般数据泄露严重,2016年8月,犯罪团伙利用非法获取得到的数万条高考考生信息实施诈骗,山东女孩徐某因学费被骗出现心脏骤停,最终不幸逝世。近几年来,个人信息泄露的事件时有发生,如在2015年5月,美国国税局宣布其系统遭受攻击,约71万人的纳税记录被泄露,同时约39万个纳税人账户被冒名访问;2016年12月,雅虎公司宣布其超过10亿的用户账号被黑客窃取,相关信息包括姓名、邮箱口令、生日、邮箱密保问题及答案等内容。需要注意的是,如经过“清洗”、“脱敏”后的数据也不能说肯定是安全的。如2006年,为了学术研究,美国在线(AOL)将65万条用户数据匿名处理后,公开发布。而《纽约时报》通过综合推断,竟然分析出了数据集中某个匿名用户的真实姓名和地址等个人信息。因此,在大数据环境下,对个人信息的保护将面临极大的挑战。3.2.3数据真实性保障更困难大数据的特点中,类型多(Variety),是指数据种类和来源非常多。实际上,在当前的万物互联时代,数据的来源非常广泛,各种非结构化数据、半结构化数据与结构化数据混杂在一起。数据采集者将不得不接受的现实是:要收集的信息太多,甚至很多数据不是来自第一手收集,而是经过多次转手之后收集到的。从来源上看,大数据系统中的数据来源可能来源于各种传感器、主动上传11
11 销毁等生命周期阶段进行。针对不同阶段的不同特点,应当采取适合该阶段的 安全技术进行保护。如在数据存储阶段,大数据应用中的数据类型包括结构化、 半结构化和非结构化数据,且半结构化和非结构化数据占据相当大的比例。因 此在存储大数据时,不仅仅要正确使用关系型数据库已有的安全机制,还应当 为半结构化和非结构化数据存储设计安全的存储保护机制。 3.2.2 个人信息泄露风险加剧 由于大数据系统中普遍存在大量的个人信息,在发生数据滥用、内部偷窃、 网络攻击等安全事件时,常常伴随着个人信息泄露。另一方面,随着数据挖掘、 机器学习、人工智能等技术的研究和应用,使得大数据分析的能力越来越强大, 由于海量数据本身就蕴藏着价值,在对大数据中多源数据进行综合分析时,分 析人员更容易通过关联分析挖掘出更多的个人信息,从而进一步加剧了个人信 息泄露的风险。在大数据时代,要对数据进行安全保护,既要注意防止因数据 丢失而直接导致的个人信息泄露,也要注意防止因挖掘分析而间接导致的个人 信息泄露,这种综合保护需求带来的安全挑战是巨大的。 在大数据时代,不能禁止外部人员挖掘公开、半公开信息,即使想限制数 据共享对象、合作伙伴挖掘共享的信息也很难做到。目前,各社交网站均不同 程度地开放其所产生的实时数据,其中既可能包括商务、业务数据,也可能包 括个人信息。市场上已经出现了许多监测数据的数据分析机构。这些机构通过 对数据的挖掘分析,以及和历史数据对比分析、和其他手段得到的公开、私有 数据进行综合挖掘分析,可能得到非常多的新信息,如分析某个地区经济趋势、 某种流行病的医学分析,甚至直接分析出某个人的具体个人信息来。 个人信息泄露产生的后果将远比一般数据泄露严重,2016 年 8 月,犯罪团 伙利用非法获取得到的数万条高考考生信息实施诈骗,山东女孩徐某因学费被 骗出现心脏骤停,最终不幸逝世。近几年来,个人信息泄露的事件时有发生, 如在 2015 年 5 月,美国国税局宣布其系统遭受攻击,约 71 万人的纳税记录被 泄露,同时约 39 万个纳税人账户被冒名访问; 2016 年 12 月,雅虎公司宣布其 超过 10 亿的用户账号被黑客窃取,相关信息包括姓名、邮箱口令、生日、邮箱 密保问题及答案等内容。 需要注意的是,如经过“清洗”、“脱敏”后的数据也不能说肯定是安全的。 如 2006 年,为了学术研究,美国在线(AOL)将 65 万条用户数据匿名处理后, 公开发布。而《纽约时报》通过综合推断,竟然分析出了数据集中某个匿名用 户的真实姓名和地址等个人信息。因此,在大数据环境下,对个人信息的保护 将面临极大的挑战。 3.2.3 数据真实性保障更困难 大数据的特点中,类型多(Variety),是指数据种类和来源非常多。实际 上,在当前的万物互联时代,数据的来源非常广泛,各种非结构化数据、半结 构化数据与结构化数据混杂在一起。数据采集者将不得不接受的现实是:要收 集的信息太多,甚至很多数据不是来自第一手收集,而是经过多次转手之后收 集到的。 从来源上看,大数据系统中的数据来源可能来源于各种传感器、主动上传
者以及公开网站。除了可信的数据来源外,也存在大量不可信的数据来源。甚至有些攻击者会故意伪造数据,企图误导数据分析结果。因此,对数据的真实性确认、来源验证等需求非常道切,数据真实性保障面临的挑战更加严峻。事实上,由于采集终端性能限制、鉴别技术不足、信息量有限、来源种类繁杂等原因,对所有数据进行真实性验证存在很大的困难。收集者无法验证到手的数据是否是原始数据,甚至无法确认数据是否被篡改、伪造。那么产生的一个问题是,依赖于大数据进行的应用,很可能得到错误的结果。如在2008年,Google发布一款名为“谷歌流感趋势”(GoogleFluTrends,GFT)的产品。该产品的基本思路是:搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系,用大数据分析网络上用户的搜索词有助于了解流感疫情。该产品在2008年大获成功,基于用户的搜索数据,比美国疾病预防控制中心(CentersforDiseaseControlandPrevention)提前两个星期预测到了流感的爆发。但是,消息公布后,众多的网民都对这个预测很感兴趣,于是网络中出现了大量的类似搜索记录,从而导致了很多“虚假”的数据记录到搜索数据中。所以后来该产品的预测结果就不准确了,尤其是到了2012年,偏差最大甚至高出了标准值一倍多。因此,在大数据环境下,对数据真实性保障面临巨大的挑战。3.2.4数据所有者权益难保障数据脱离数据所有者控制将损害数据所有者的权益。大数据应用过程中,数据的生命周期包括采集、传输、存储、处理、交换、销毁等各个阶段,在每个阶段中可能会被不同角色的用户所接触,会从一个控制者流向另一个控制者。因此,在大数据应用流通过程中,会出现数据拥有者与管理者不同、数据所有权和使用权分离的情况,即数据会脱离数据所有者的控制而存在。从而,数据的实际控制者可以不受数据所有者的约束而自由地使用、分享、交换、转移、删除这些数据,也就是在大数据应用中容易存在数据用、权属不明确、安全监管责任不清晰等安全风险,而这将严重损害数据所有者的权益。数据产权归属分歧严重。数据的开放、流通和共享是大数据产业发展的关键,而数据的产权清晰是大数据共享交换、交易流通的基础。但是,当前的大数据应用场景中,存在数据产权不清晰的情况。如大数据挖掘分析者经过对原始数据集处理后,会分析出新的数据,这些数据的所有权到底属于原始数据所有方,还是挖掘分析者,目前在很多应用场景中还是各执一词,没有明确的说法。又如在一些提供交通出行、位置服务的应用中,服务提供商在为客户提供导航、交通工具等服务时,同时记录了客户端运动轨迹信息,对于此类运动轨迹信息的权属到底属于谁,以及是否属于客户端个人信息,到目前为止,分歧仍然比较大。对此类数据权属不清的数据,首要解决的是数据归谁所有、谁能授权等问题,才能明确数据能用来干什么、不能用来干什么,以及采用什么安全保护措施,尤其是当数据中含有重要数据或个人信息的时候。3.3国家社会安全和法规标准挑战大数据正日益对全球经济运行机制、社会生活方式和国家治理能力产生重要影响。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服12
12 者以及公开网站。除了可信的数据来源外,也存在大量不可信的数据来源。甚 至有些攻击者会故意伪造数据,企图误导数据分析结果。因此,对数据的真实 性确认、来源验证等需求非常迫切,数据真实性保障面临的挑战更加严峻。 事实上,由于采集终端性能限制、鉴别技术不足、信息量有限、来源种类 繁杂等原因,对所有数据进行真实性验证存在很大的困难。收集者无法验证到 手的数据是否是原始数据,甚至无法确认数据是否被篡改、伪造。那么产生的 一个问题是,依赖于大数据进行的应用,很可能得到错误的结果。 如在 2008 年,Google 发布一款名为“谷歌流感趋势”(Google Flu Trends, GFT)的产品。该产品的基本思路是:搜索流感相关主题的人数与实际患有流感 症状的人数之间存在着密切的关系,用大数据分析网络上用户的搜索词有助于 了解流感疫情。该产品在 2008 年大获成功,基于用户的搜索数据,比美国疾病 预防控制中心(Centers for Disease Control and Prevention)提前两个星 期预测到了流感的爆发。但是,消息公布后,众多的网民都对这个预测很感兴 趣,于是网络中出现了大量的类似搜索记录,从而导致了很多“虚假”的数据 记录到搜索数据中。所以后来该产品的预测结果就不准确了,尤其是到了 2012 年,偏差最大甚至高出了标准值一倍多。因此,在大数据环境下,对数据真实 性保障面临巨大的挑战。 3.2.4 数据所有者权益难保障 数据脱离数据所有者控制将损害数据所有者的权益。大数据应用过程中, 数据的生命周期包括采集、传输、存储、处理、交换、销毁等各个阶段,在每 个阶段中可能会被不同角色的用户所接触,会从一个控制者流向另一个控制者。 因此,在大数据应用流通过程中,会出现数据拥有者与管理者不同、数据所有 权和使用权分离的情况,即数据会脱离数据所有者的控制而存在。从而,数据 的实际控制者可以不受数据所有者的约束而自由地使用、分享、交换、转移、 删除这些数据,也就是在大数据应用中容易存在数据滥用、权属不明确、安全 监管责任不清晰等安全风险,而这将严重损害数据所有者的权益。 数据产权归属分歧严重。数据的开放、流通和共享是大数据产业发展的关 键,而数据的产权清晰是大数据共享交换、交易流通的基础。但是,当前的大 数据应用场景中,存在数据产权不清晰的情况。如大数据挖掘分析者经过对原 始数据集处理后,会分析出新的数据,这些数据的所有权到底属于原始数据所 有方,还是挖掘分析者,目前在很多应用场景中还是各执一词,没有明确的说 法。又如在一些提供交通出行、位置服务的应用中,服务提供商在为客户提供 导航、交通工具等服务时,同时记录了客户端运动轨迹信息,对于此类运动轨 迹信息的权属到底属于谁,以及是否属于客户端个人信息,到目前为止,分歧 仍然比较大。对此类数据权属不清的数据,首要解决的是数据归谁所有、谁能 授权等问题,才能明确数据能用来干什么、不能用来干什么,以及采用什么安 全保护措施,尤其是当数据中含有重要数据或个人信息的时候。 3.3 国家社会安全和法规标准挑战 大数据正日益对全球经济运行机制、社会生活方式和国家治理能力产生重 要影响。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服