第11卷第6期 智能系统学报 Vol.11 No.6 2016年12月 CAAI Transactions on Intelligent Systems Dec.2016 D0I:10.11992/is.201610025 网络出版地址: 大数据情报分析发展机遇及其挑战 黄河燕12,曹朝12,冯冲12 (1.北京理工大学计算机学院,北京100081:2.北京市海量语言信息处理与云计算应用工程研究中心,北京100081) 摘要:大数据时代,情报信息的分析处理面临着前所未有的机遇和挑战。本文从情报学发展范式的角度阐述了情 报分析的现状:以事实数据、工具方法和专家智慧相融合的情报处理理念为指导,剖析了大数据情报分析在大数据 融合、大数据处理技术与工具、信息深度挖掘方面的应用需求和面临的挑战:最后以大数据情报分析过程中的数据 采集、预处理、分析和应用为主线展望了大数据情报分析的应用发展机遇和技术趋势。 关键词:大数据:情报分析:情报学:机遇与挑战:云计算 中图分类号:TP18文献标志码:A文章编号:1673-4785(2016)06-0719-09 中文引用格式:黄河燕,曹朝,冯冲.大数据情报分析发展机遇及其挑战[J].智能系统学报,2016,11(6):719-727. 英文引用格式:HUANG Heyan,CAO Zhao,FENG Chong.Opportunities and challenges of big data intelligence analysis[J].CAAI Transactions on Intelligent Systems,2016,11(6):719-727. Opportunities and challenges of big data intelligence analysis HUANG Heyan'2,CAO Zhao .2,FENG Chong'2 (1.School of Computer Science,Beijing Institute of Technology,Beijing 100081,China;2.Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,Beijing 100081,China) Abstract:In the era of big data,information and intelligence analysis is facing unprecedented opportunities and challenges.This paper describes the status of intelligence analysis from the perspective of the information science development paradigm.With the guidance of information processing concepts,which is an integration of factual da- ta,tools,methods and expert wisdom,the application requirements and challenges of big data intelligence analysis were analyzed in terms of big data integration,big data processing technology,tools and deep information mining. Finally,because the big data intelligence analysis process consists of data collection,pre-processing,analysis and application as the main components,the application development opportunities and technical trends of big data in- telligence analysis were forecasted. Keywords:big data;intelligence analysis;information sciences;opportunities and challenges;cloud computing 大数据时代,随着数据的爆炸式增长,海洋一般出知识规律、提供正确的决策如同矿产资源探测、采 浩瀚的数据已成为一种类似于矿藏的战略资源。矿、冶炼一般需要数据科学家和领域专业人员的共 Gartner公司的报告提出大数据是大容量、高速和多同努力。情报工作是对情报进行科学地、有组织地 样化的信息资产,它们需要新的处理方式,以提高决搜集、整理、加工、存储、检索和研究,及时而准确地 策能力、洞察力并进行流程优化。另外,如何从这些进行传播交流,达到充分有效提供使用的目的的一 海洋一般浩瀚的数据中挖掘出有价值的信息、提炼 种业务活动。美国政府已经将大数据技术应用到实 际运作中,比如:美国中央情报局(CIA)首席技术官 收稿日期:2016-10-24. 基金项目:国家重点研发计划项目(2016YFB1000902). 透露美国已经将大数据技术应用于恐怖分子追踪和 通信作者:黄河燕E-mail:hhy63@bit.edu.cn. 社会情绪的监控:在“阿拉伯之春”过程中,通过大
第 11 卷第 6 期 智 能 系 统 学 报 Vol.11 №.6 2016 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2016 DOI:10.11992 / tis.201610025 网络出版地址: 大数据情报分析发展机遇及其挑战 黄河燕1,2 ,曹朝1,2 ,冯冲1,2 (1.北京理工大学 计算机学院,北京 100081; 2. 北京市海量语言信息处理与云计算应用工程研究中心,北京 100081) 摘 要:大数据时代,情报信息的分析处理面临着前所未有的机遇和挑战。 本文从情报学发展范式的角度阐述了情 报分析的现状;以事实数据、工具方法和专家智慧相融合的情报处理理念为指导,剖析了大数据情报分析在大数据 融合、大数据处理技术与工具、信息深度挖掘方面的应用需求和面临的挑战;最后以大数据情报分析过程中的数据 采集、预处理、分析和应用为主线展望了大数据情报分析的应用发展机遇和技术趋势。 关键词:大数据;情报分析;情报学;机遇与挑战;云计算 中图分类号: TP18 文献标志码:A 文章编号:1673-4785(2016)06-0719-09 中文引用格式:黄河燕,曹朝,冯冲. 大数据情报分析发展机遇及其挑战[J]. 智能系统学报, 2016, 11(6): 719-727. 英文引用格式:HUANG Heyan, CAO Zhao, FENG Chong. Opportunities and challenges of big data intelligence analysis[J]. CAAI Transactions on Intelligent Systems, 2016, 11(6): 719-727. Opportunities and challenges of big data intelligence analysis HUANG Heyan 1,2 , CAO Zhao 1,2 , FENG Chong 1,2 (1. School of Computer Science, Beijing Institute of Technology, Beijing 100081, China; 2. Beijing Engineering Research Center of High Volume Language Information Processing and Cloud Computing Applications,Beijing 100081, China) Abstract:In the era of big data, information and intelligence analysis is facing unprecedented opportunities and challenges. This paper describes the status of intelligence analysis from the perspective of the information science development paradigm. With the guidance of information processing concepts, which is an integration of factual da⁃ ta, tools, methods and expert wisdom, the application requirements and challenges of big data intelligence analysis were analyzed in terms of big data integration, big data processing technology, tools and deep information mining. Finally, because the big data intelligence analysis process consists of data collection, pre⁃processing, analysis and application as the main components, the application development opportunities and technical trends of big data in⁃ telligence analysis were forecasted. Keywords: big data; intelligence analysis; information sciences; opportunities and challenges; cloud computing 收稿日期:2016-10-24. 基金项目:国家重点研发计划项目(2016YFB1000902). 通信作者:黄河燕.E⁃mail:hhy63@ bit.edu.cn. 大数据时代,随着数据的爆炸式增长,海洋一般 浩瀚的数据已成为一种类似于矿藏的战略资源。 Gartner 公司的报告提出大数据是大容量、高速和多 样化的信息资产,它们需要新的处理方式,以提高决 策能力、洞察力并进行流程优化。 另外,如何从这些 海洋一般浩瀚的数据中挖掘出有价值的信息、提炼 出知识规律、提供正确的决策如同矿产资源探测、采 矿、冶炼一般需要数据科学家和领域专业人员的共 同努力。 情报工作是对情报进行科学地、有组织地 搜集、整理、加工、存储、检索和研究,及时而准确地 进行传播交流,达到充分有效提供使用的目的的一 种业务活动。 美国政府已经将大数据技术应用到实 际运作中,比如:美国中央情报局(CIA)首席技术官 透露美国已经将大数据技术应用于恐怖分子追踪和 社会情绪的监控;在“阿拉伯之春” 过程中,通过大
.720 智能系统学报 第11卷 数据分析可以了解多少人和哪些人正在从温和立场 学的研究范畴明显符合了数据量巨大、信息源多、数 变得更为激进,并预测出谁可能会采取对某些人有 据类型复杂等大数据的典型特征。IBM公司定义的 害的行动。由此可以看出,大数据的价值链与情报 大数据的4V特性:大数据量(Volume)、高数据速率 工作的价值链完全一致[口。 (Velocity)、多样性(Variety)和真实性(Veracity),在 大数据时代的来临,给各个学科带来了前所未 大数据情报学发展范式中有明显的体现)。 有的机遇和挑战,尤其是以数据采集和信息处理与 情报分析发展到基于大数据的阶段,大数据技 分析为基础的情报分析,其发展也随着大数据技术 术的应用对情报学的理念、研究内容、主要技术方法 的发展面临着前所未有的机遇和挑战。本文结合情 等方面产生了深刻而重要的影响,一方面各国的政 报分析的发展现状以及当前大数据情报分析的应用 府机构逐步重视大数据在情报分析方面的应用: 需求,阐述大数据技术的发展给情报分析带来的重 一方面也产生了专门进行情报大数据分析的商业化 大影响和变革,并且从大数据情报分析过程中涉及 公司。以美国的Palantir公司为例,Palantir公司主 到的数据采集、处理、分析和应用各个阶段对大数据 营情报分析业务,也是将大数据技术应用于情报分 情报分析的未来应用发展和技术发展趋势进行了详 析的典型代表,它的主要客户包括:中央情报局 细的分析和展望。 (CIA)、国土安全部(DHS)、国家安全局(NSA)、联 1 情报分析的发展范式及其现状 邦调查局(FBI)、疾病防控中心(CDC)等美国政府 机构。有消息称:“本拉登的行踪线索是通过情报 情报分析也称为信息分析或者情报研究,是指 软件Palantir确定的”。 根据社会用户的特定需求,以现代信息技术和软科 目前大数据情报分析仍然处于初步且快速发展 学研究方法为主要手段,以社会信息的采集、选择、 的阶段。以Palantir公司为例,随着应用于情报分 评价、分析和综合等系列加工为基本过程,形成新 析的大数据技术不断成熟,Palantir与客户的合作模 的、增值的情报产品,为不同层次科学决策服务的社 式也在发生转变。在2010年之前,外派工程师需要 会化智能活动。情报分析是社会重大决策规划 花费数十天时间对客户的大规模数据进行人工预处 和实施中的“耳目和尖兵”,它研究的重点也始终关 理,然后通过该公司的产品将凌乱的数据转换成直 注于数据的采集、处理、分析及深层次挖掘,探索从 观的图表,借助先进的软件和算法进行分析。而在 复杂的数据中找到知识之间有效关联及知识发现的 2010年以后该公司逐步形成软件对大数据集成、安 最佳方法。 全等进行统一管理和进一步的分析。由Palantir公 从情报学发展范式来看,情报学发展经历了4 司成功的经验可以看出,大数据情报分析首先需要 个阶段: 有高质量的数据基础,因此数据的清理、预处理也是 1)基于信息的事实型情报学发展范式(20世纪 大数据情报分析重要而且必须的一个环节。 40~60年代),这个阶段提出了情报学的研究内容 和研究方法,形成了最初的情报学思想,也是标志情 2大数据情报分析的应用需求和面临 报学的产生和确立的重要时期: 的挑战 2)基于信息管理的综述型情报学发展范式(20 世纪70~90年代),这一时期情报学研究对特定的 情报学研究的重点始终关注数据的处理、分析 学科选题进行了分析,具备了明显的管理学特征: 及深层次挖掘,探索从复杂的数据中找到知识之间 3)基于智能的智慧型情报学发展范式(1995~ 有效关联及知识发现的最佳方法,大数据情报分析 2010年),情报学的研究表现出了智能深度挖掘、数 作为其中的一种发展范式也不能例外。情报分析中 据信息关联的特征。但是这一时期的情报学研究也 传统的基于“事实数据+工具方法+专家智慧”的研 有一些限制,比如主要聚焦于单一领域,考虑的数据 究方法和需求与大数据分析历年不谋而合:1)事实 源和数据类型主要局限于结构化数据,智能情报分 数据在大数据情报分析中表现为对来自于多个数据 析对分析人员要求过高(模型选择、各种繁杂的参 源的大量数据的整合和融合利用;2)工具方法体现 数),需要大量的人工辅助或者人工处理,智能化程 于大数据情报分析中对各种大数据工具和自动化处 度有待进一步提升: 理技术的需求:3)而专家智慧则具体体现为通过智 4)基于大数据的情报学发展范式(21世纪初至 能关联、数据挖掘、深度学习等机器学习方法对数据 今),在大数据技术蓬勃发展的背景下,本阶段情报 和信息进行深层挖掘的需求。这些需求印证了大数
数据分析可以了解多少人和哪些人正在从温和立场 变得更为激进,并预测出谁可能会采取对某些人有 害的行动。 由此可以看出,大数据的价值链与情报 工作的价值链完全一致[1] 。 大数据时代的来临,给各个学科带来了前所未 有的机遇和挑战,尤其是以数据采集和信息处理与 分析为基础的情报分析,其发展也随着大数据技术 的发展面临着前所未有的机遇和挑战。 本文结合情 报分析的发展现状以及当前大数据情报分析的应用 需求,阐述大数据技术的发展给情报分析带来的重 大影响和变革,并且从大数据情报分析过程中涉及 到的数据采集、处理、分析和应用各个阶段对大数据 情报分析的未来应用发展和技术发展趋势进行了详 细的分析和展望。 1 情报分析的发展范式及其现状 情报分析也称为信息分析或者情报研究,是指 根据社会用户的特定需求,以现代信息技术和软科 学研究方法为主要手段,以社会信息的采集、选择、 评价、分析和综合等系列加工为基本过程,形成新 的、增值的情报产品,为不同层次科学决策服务的社 会化智能活动[2] 。 情报分析是社会重大决策规划 和实施中的“耳目和尖兵”,它研究的重点也始终关 注于数据的采集、处理、分析及深层次挖掘,探索从 复杂的数据中找到知识之间有效关联及知识发现的 最佳方法。 从情报学发展范式来看,情报学发展经历了 4 个阶段: 1)基于信息的事实型情报学发展范式(20 世纪 40~60 年代),这个阶段提出了情报学的研究内容 和研究方法,形成了最初的情报学思想,也是标志情 报学的产生和确立的重要时期; 2)基于信息管理的综述型情报学发展范式(20 世纪 70~90 年代),这一时期情报学研究对特定的 学科选题进行了分析,具备了明显的管理学特征; 3)基于智能的智慧型情报学发展范式(1995 ~ 2010 年),情报学的研究表现出了智能深度挖掘、数 据信息关联的特征。 但是这一时期的情报学研究也 有一些限制,比如主要聚焦于单一领域,考虑的数据 源和数据类型主要局限于结构化数据,智能情报分 析对分析人员要求过高(模型选择、各种繁杂的参 数),需要大量的人工辅助或者人工处理,智能化程 度有待进一步提升; 4)基于大数据的情报学发展范式(21 世纪初至 今),在大数据技术蓬勃发展的背景下,本阶段情报 学的研究范畴明显符合了数据量巨大、信息源多、数 据类型复杂等大数据的典型特征。 IBM 公司定义的 大数据的 4V 特性:大数据量(Volume)、高数据速率 (Velocity)、多样性(Variety)和真实性(Veracity),在 大数据情报学发展范式中有明显的体现[3] 。 情报分析发展到基于大数据的阶段,大数据技 术的应用对情报学的理念、研究内容、主要技术方法 等方面产生了深刻而重要的影响,一方面各国的政 府机构逐步重视大数据在情报分析方面的应用;另 一方面也产生了专门进行情报大数据分析的商业化 公司。 以美国的 Palantir 公司为例,Palantir 公司主 营情报分析业务,也是将大数据技术应用于情报分 析的典型代表, 它的主要客户包括: 中央情报局 (CIA)、国土安全部(DHS)、国家安全局(NSA)、联 邦调查局(FBI)、疾病防控中心(CDC)等美国政府 机构。 有消息称:“本拉登的行踪线索是通过情报 软件 Palantir 确定的”。 目前大数据情报分析仍然处于初步且快速发展 的阶段。 以 Palantir 公司为例,随着应用于情报分 析的大数据技术不断成熟,Palantir 与客户的合作模 式也在发生转变。 在 2010 年之前,外派工程师需要 花费数十天时间对客户的大规模数据进行人工预处 理,然后通过该公司的产品将凌乱的数据转换成直 观的图表,借助先进的软件和算法进行分析。 而在 2010 年以后该公司逐步形成软件对大数据集成、安 全等进行统一管理和进一步的分析。 由 Palantir 公 司成功的经验可以看出,大数据情报分析首先需要 有高质量的数据基础,因此数据的清理、预处理也是 大数据情报分析重要而且必须的一个环节。 2 大数据情报分析的应用需求和面临 的挑战 情报学研究的重点始终关注数据的处理、分析 及深层次挖掘,探索从复杂的数据中找到知识之间 有效关联及知识发现的最佳方法,大数据情报分析 作为其中的一种发展范式也不能例外。 情报分析中 传统的基于“事实数据+工具方法+专家智慧”的研 究方法和需求与大数据分析历年不谋而合:1)事实 数据在大数据情报分析中表现为对来自于多个数据 源的大量数据的整合和融合利用;2)工具方法体现 于大数据情报分析中对各种大数据工具和自动化处 理技术的需求;3)而专家智慧则具体体现为通过智 能关联、数据挖掘、深度学习等机器学习方法对数据 和信息进行深层挖掘的需求。 这些需求印证了大数 ·720· 智 能 系 统 学 报 第 11 卷
第6期 黄河燕,等:大数据情报分析发展机遇及其挑战 .721. 据分析技术的进步能够促进情报分析的发展。 业通常采用的数据格式不同,比如制造业中有大量 2.1多种数据的整合和融合利用 的CAD绘图文件、出版业中有对老书籍的扫描件 在大数据的环境)下,情报分析的数据来源和 等。各种各样的数据类型通常包括文本、网页、图 数据类型表现出空前的多元化特征,其中涉及的数 片、PDF、CAD绘图、视频、音频、扫描件等[6。 据量越来越大,数据的类型变得更加复杂,尤其是非 3)行业多样性。除了门户网站、搜索引擎(百 结构化数据所占的比重明显增大,数据的处理和分 度、谷歌等)、电子商务网站(淘宝、亚马逊等)这些 析难度增加,随之而来的对智能型数据分析工具和 流量巨大、产生数据量也巨大的企业为代表的互联 数据可视化工具等的要求也越来越高。大数据情报 网数据外,大数据情报分析还涉及诸如医疗卫生、航 分析中的数据特征明显符合大数据的“数据量大 空、地理信息、专利标准、影视娱乐、机械、科学研究 (Volume)”、“多样性(Variety)”、“数据速率快(Ve 等行业,情报大数据分析过程中需要统筹考虑来自 locity)”和“真实性(Veracity)”特性)。 于各个行业以及互联网的数据[-) 2.1.1数据量大(Volume) 4)语言多样性。语言的多样性源于大数据情 1)大量数据源。数据的来源多种多样,而不同 报分析需要处理来自于不同国家、不同语种的信息, 的数据源产生出的数据价值密度不尽相同甚至差异 比如汉语、英语、德语、法语、韩语、西班牙语等: 巨大,因此要从中筛选出高价值的数据源,或者根据 外,我国是一个多民族的国家,也要充分考虑民族语 价值密度的高低对不同的数据源设置不同的数据更 言的多样性,比如藏语、维吾尔语、蒙语等不同民族 新采集频率;另外,每一种数据源内的数据采集点巨 所特有的语言。需要对来自于这些语言的情报信息 大,以社交网络为例,每个用户作为一个采集点, 处理和分析在统一的框架下进行。 Twitter有3亿以上的用户,新浪微博有注册用户5 2.1.3数据速率快(Velocity)特性需求 亿以上、活跃用户2亿以上,因此要从这些潜在的采 1)流式数据处理。在大数据时代,数据的变 集点中找到有价值的采集点是一个巨大的挑战。 化、变动或者产生的速度非常快,比如从服务器日志 2)数据量大。由于大数据情报分析中数据量 到各种各样的传感器每时每刻都在源源不断地产生 的巨大,对于大数据情报分析系统来说,一方面需要 新数据。大数据情报分析需要对这些流式数据进行 高效的数据存储方式作为基础,另一个重要方面就 实时采集和分析处理。另外,流式数据的高速率导 是必须支持对海量数据进行高效快速地处理和分 致大数据量,从而难以对完整的数据流进行存储,因 析,提供对情报分析数据的全生命周期管理,同时需 而需要对数据流进行在线分析并对数据进行摘要后 要支持对数据的离线批处理和实时在线分析。 存储。 3)冗余/无关数据量大。大数据情报分析的各 2)高时效性分析。根据采集到的数据进行处 个数据源每时每刻都在产生大量的数据,其中很可 理分析得到结果以快速地响应环境的变化和需求, 能会包括冗余、无关紧要的数据记录,正确地判断并 特别是对于一些应用来说需要在很短的时间窗口内 且清除无关数据,消除多数据源之间信息冗余对于 返回分析结果,超过一定时间窗口后返回的结果将 数据的高效存储、有效而准确地分析都显得非常有 失去应用意义。比如在金融情报分析系统中需要根 必要。 据市场数据的变化实时快速分析出结果并做出决 2.1.2多样性(Variety) 策。对于另外一些应用来说则需要对实时增量更新 1)数据来源的多样性。从传统的图书报纸等 的数据进行分析得到结果。 纸质出版物到网络化时代的电子出版物,互联网产 2.l.4准确性(Veracity)需求 生的政府、机构、公司等主页信息,互联网新闻信息, 1)歧义/冲突多。大数据情报分析由于其数据 各种开放存取数据,近年来涌现出的大量社交网络 源多、数据多样、数据量巨大的特点,不同的数据源 (FaceBook、Twitter、微博、微信等)和电商网站信息 或者不同时刻采集到的数据会产生相互矛盾和冲突 使得情报分析的数据来源变得前所未有的丰富。 的数据记录,因此智能地消除信息的歧义,自动且智 2)数据类型的多样性。一方面,由于数据来源 能地处理信息源之间的内容冲突的功能也变得不可 的多样性,不同来源通常使用不同的数据类型,比如 或缺。 出版物多采用PDF格式并辅助以一定的元数据、社 2)信息互补。单一数据源的数据有时仅提供 交网络数据通常是文本数据和视频数据的混合、门 了情报信息中的某一个侧面,如果要获取完整的情 户网站和论坛通常是网页数据:另一方面,不同的行 报信息需要融合多个信息源提供的互补信息或者对
据分析技术的进步能够促进情报分析的发展。 2.1 多种数据的整合和融合利用 在大数据的环境[4] 下,情报分析的数据来源和 数据类型表现出空前的多元化特征,其中涉及的数 据量越来越大,数据的类型变得更加复杂,尤其是非 结构化数据所占的比重明显增大,数据的处理和分 析难度增加,随之而来的对智能型数据分析工具和 数据可视化工具等的要求也越来越高。 大数据情报 分析中的数据特征明显符合大数据的 “数据量大 (Volume)” 、“多样性(Variety)”、“数据速率快(Ve⁃ locity)”和“真实性(Veracity)”特性[5] 。 2.1.1 数据量大(Volume) 1)大量数据源。 数据的来源多种多样,而不同 的数据源产生出的数据价值密度不尽相同甚至差异 巨大,因此要从中筛选出高价值的数据源,或者根据 价值密度的高低对不同的数据源设置不同的数据更 新采集频率;另外,每一种数据源内的数据采集点巨 大,以社交网络为例,每个用户作为一个采集点, Twitter 有 3 亿以上的用户,新浪微博有注册用户 5 亿以上、活跃用户 2 亿以上,因此要从这些潜在的采 集点中找到有价值的采集点是一个巨大的挑战。 2)数据量大。 由于大数据情报分析中数据量 的巨大,对于大数据情报分析系统来说,一方面需要 高效的数据存储方式作为基础,另一个重要方面就 是必须支持对海量数据进行高效快速地处理和分 析,提供对情报分析数据的全生命周期管理,同时需 要支持对数据的离线批处理和实时在线分析。 3)冗余/ 无关数据量大。 大数据情报分析的各 个数据源每时每刻都在产生大量的数据,其中很可 能会包括冗余、无关紧要的数据记录,正确地判断并 且清除无关数据,消除多数据源之间信息冗余对于 数据的高效存储、有效而准确地分析都显得非常有 必要。 2.1.2 多样性(Variety) 1)数据来源的多样性。 从传统的图书报纸等 纸质出版物到网络化时代的电子出版物,互联网产 生的政府、机构、公司等主页信息,互联网新闻信息, 各种开放存取数据,近年来涌现出的大量社交网络 (FaceBook、Twitter、微博、微信等) 和电商网站信息 使得情报分析的数据来源变得前所未有的丰富。 2)数据类型的多样性。 一方面,由于数据来源 的多样性,不同来源通常使用不同的数据类型,比如 出版物多采用 PDF 格式并辅助以一定的元数据、社 交网络数据通常是文本数据和视频数据的混合、门 户网站和论坛通常是网页数据;另一方面,不同的行 业通常采用的数据格式不同,比如制造业中有大量 的 CAD 绘图文件、出版业中有对老书籍的扫描件 等。 各种各样的数据类型通常包括文本、网页、图 片、PDF、CAD 绘图、视频、音频、扫描件等[6] 。 3)行业多样性。 除了门户网站、搜索引擎(百 度、谷歌等)、电子商务网站(淘宝、亚马逊等)这些 流量巨大、产生数据量也巨大的企业为代表的互联 网数据外,大数据情报分析还涉及诸如医疗卫生、航 空、地理信息、专利标准、影视娱乐、机械、科学研究 等行业,情报大数据分析过程中需要统筹考虑来自 于各个行业以及互联网的数据[7-8] 。 4)语言多样性。 语言的多样性源于大数据情 报分析需要处理来自于不同国家、不同语种的信息, 比如汉语、英语、德语、法语、韩语、西班牙语等;另 外,我国是一个多民族的国家,也要充分考虑民族语 言的多样性,比如藏语、维吾尔语、蒙语等不同民族 所特有的语言。 需要对来自于这些语言的情报信息 处理和分析在统一的框架下进行。 2.1.3 数据速率快(Velocity)特性需求 1)流式数据处理。 在大数据时代,数据的变 化、变动或者产生的速度非常快,比如从服务器日志 到各种各样的传感器每时每刻都在源源不断地产生 新数据。 大数据情报分析需要对这些流式数据进行 实时采集和分析处理。 另外,流式数据的高速率导 致大数据量,从而难以对完整的数据流进行存储,因 而需要对数据流进行在线分析并对数据进行摘要后 存储。 2)高时效性分析。 根据采集到的数据进行处 理分析得到结果以快速地响应环境的变化和需求, 特别是对于一些应用来说需要在很短的时间窗口内 返回分析结果,超过一定时间窗口后返回的结果将 失去应用意义。 比如在金融情报分析系统中需要根 据市场数据的变化实时快速分析出结果并做出决 策。 对于另外一些应用来说则需要对实时增量更新 的数据进行分析得到结果。 2.1.4 准确性(Veracity)需求 1)歧义/ 冲突多。 大数据情报分析由于其数据 源多、数据多样、数据量巨大的特点,不同的数据源 或者不同时刻采集到的数据会产生相互矛盾和冲突 的数据记录,因此智能地消除信息的歧义,自动且智 能地处理信息源之间的内容冲突的功能也变得不可 或缺。 2)信息互补。 单一数据源的数据有时仅提供 了情报信息中的某一个侧面,如果要获取完整的情 报信息需要融合多个信息源提供的互补信息或者对 第 6 期 黄河燕,等:大数据情报分析发展机遇及其挑战 ·721·
.722 智能系统学报 第11卷 多个信息源提供的信息进行相互印证。比如:通过 型、文本型、图形图像、音频类型和视频类型,这些大 一定蜂窝数据能够分析出我们的住所以及工作单位 量涌入的非结构或半结构化数据,必然需要通过预 位置信息,而纳税信息能够推断出一个人的收入状 处理技术将这些数据转化为结构化数据,以供后续 况,通过诸多信息源信息的互补能够还原一个人的 分析4 多方面信息。 在多元化信息方面则需要根据分析需求加以融 2.2大数据处理与分析工具和自动化处理 合[15-1)。多源异构是大数据的基本特征之一,多元 大数据情报分析需要采集海量的情报素材,然 数据的融合也成为大数据分析处理的重要环节。根 后对对海量的素材进行存储、预处理和分析,其中数 据实际的问题场景,多元信息的融合有利于进一步 据的存储包括对结构化和非结构化的数据的存储。 挖掘数据的价值,提升信息分析的有效性和准确性 对于不同来源的数据也需要能够对采集到的数据进 的作用:通过多元信息交叉印证,可以减少信息错误 行转化、冗余或者冲突数据的清除,以及对不同来源 与疏漏,提供决策的准确性。对于大数据情报分析 的数据进行融合,都需要大数据情报分析系统能够 来说,多元化信息的融合已经成为一个重要的理念 自动地完成,这就对大数据工具以及工具间作业流 和必不可少的需求,具体的表现形式包括传感数据 转的自动化提出了要求。总体来说,大数据情报分 与社会数据的融合、历史数据与实时数据的融合、线 析对大数据工具和自动化处理技术的需求主要体现 上数据与线下数据的融合、内部数据与外部数据的 在大数据情报素材采集、大数据分布式存储、大数据 融合等。 并行计算平台、大数据分析算法和流程自动化方面。 深度挖掘方面,针对海量的包含丰富而复杂信 大数据情报素材采集方面的需求主要包括:1) 息的数据,简单的统计分析已不能满足决策需求,为 针对不同的数据源采用不同的采集方法:2)可配 了从中发现潜在模式以及关系,需要利用的算法包 置、自适应的大数据情报素材采集系统,比如采集系 括简单方法、基于概率论的方法、基于模糊推理的方 统能够适应新的社交媒体内容或者经过简单配置后 法以及人工智能算法等7-21】。简单的算法包括加 能够处理新的媒体内容:3)对于一些受限的信息 权平均、单元或者多元线性回归等2)。基于概率的 源,能够突破这些限制。 算法则有贝叶斯估计、贝叶斯滤波、贝叶斯推理网络 大数据分布式存储、并行计算平台、分析算法、 和D-$证据理论等。基于模糊推理的方法则有处理 流程自动化的研究和发展为大数据情报分析提供了 数据模糊性、不完全行和不同粒度的模糊集和粗糙 坚实的技术基础。目前,已经有很多的大数据技术 集方法[2-2。人工智能计算方法如神经网络、遗传 服务提供商、互联网企业、研究机构和开源组织(比 算法、蚁群算法、机器学习、深度学习算法可以处理 如Apache Hadoop和Spark)致力于大数据的处理和 不完善的数据,在处理数据的过程中不断地学习与 分析技术研究与开发,提出了新的大数据存储与分 归纳,从海量的数据中学习知识和发现规律。大数 析的方法和技术,并且开发除了具备相应功能的大 据情报分析的数据具有关系复杂、数据漂移、超高 数据存储和计算处理工具以及完整的通用大数据开 维、噪声多以及属性稀疏等特点,导致传统的数据挖 源云计算平台Hadoop、Spark等9-1o。而且,随着开 掘和机器学习算法难以有效地进行数据处理和情报 源社区的不断发展壮大,这些开源软件的功能不断 分析,为此需要研究新的机器学习理论和方法。另 完善并增加。从大数据情报分析的角度来看,主要 外,需要研究适合大数据分布式处理的数据挖掘编 的需求是充分的利用开源社区的成果,针对大数据 程模型和分布式并行化执行机制,支持数据挖掘算 情报分析的特定需求开发或定制相应的模块。 法中迭代、递归、聚合、集成、归并等复杂算法编程, 2.3大数据情报深度分析 以及在现有的并行计算平台上设计和实现复杂度 深度分析是在预处理后的数据基础之上借助复 低、并行性高的分布式并行化机器学习与数据挖掘 杂的机器学习、信息关联、智能分析与可视化工具通 算法。 过智能的方法将其转换为信息和知识的能力,这种 能力主要体现在信息抽取、多元信息融合和深度挖 3 大数据情报分析应用展望和发展 掘3个方面-]。 机遇 在信息抽取方面,在情报研究对象大幅度扩展 的情况下,其中可能包含Twitter、微博等社交媒体信 大数据技术给情报分析的发展带来了深刻的影 息,由不同的用户产生不同呈现形式的数据,如数值 响和变革,也给情报学研究带来的前所未有的机遇
多个信息源提供的信息进行相互印证。 比如:通过 一定蜂窝数据能够分析出我们的住所以及工作单位 位置信息,而纳税信息能够推断出一个人的收入状 况,通过诸多信息源信息的互补能够还原一个人的 多方面信息。 2.2 大数据处理与分析工具和自动化处理 大数据情报分析需要采集海量的情报素材,然 后对对海量的素材进行存储、预处理和分析,其中数 据的存储包括对结构化和非结构化的数据的存储。 对于不同来源的数据也需要能够对采集到的数据进 行转化、冗余或者冲突数据的清除,以及对不同来源 的数据进行融合,都需要大数据情报分析系统能够 自动地完成,这就对大数据工具以及工具间作业流 转的自动化提出了要求。 总体来说,大数据情报分 析对大数据工具和自动化处理技术的需求主要体现 在大数据情报素材采集、大数据分布式存储、大数据 并行计算平台、大数据分析算法和流程自动化方面。 大数据情报素材采集方面的需求主要包括:1) 针对不同的数据源采用不同的采集方法;2) 可配 置、自适应的大数据情报素材采集系统,比如采集系 统能够适应新的社交媒体内容或者经过简单配置后 能够处理新的媒体内容;3) 对于一些受限的信息 源,能够突破这些限制。 大数据分布式存储、并行计算平台、分析算法、 流程自动化的研究和发展为大数据情报分析提供了 坚实的技术基础。 目前,已经有很多的大数据技术 服务提供商、互联网企业、研究机构和开源组织(比 如 Apache Hadoop 和 Spark)致力于大数据的处理和 分析技术研究与开发,提出了新的大数据存储与分 析的方法和技术,并且开发除了具备相应功能的大 数据存储和计算处理工具以及完整的通用大数据开 源云计算平台 Hadoop、Spark 等[9-10] 。 而且,随着开 源社区的不断发展壮大,这些开源软件的功能不断 完善并增加。 从大数据情报分析的角度来看,主要 的需求是充分的利用开源社区的成果,针对大数据 情报分析的特定需求开发或定制相应的模块。 2.3 大数据情报深度分析 深度分析是在预处理后的数据基础之上借助复 杂的机器学习、信息关联、智能分析与可视化工具通 过智能的方法将其转换为信息和知识的能力,这种 能力主要体现在信息抽取、多元信息融合和深度挖 掘 3 个方面[11-13] 。 在信息抽取方面,在情报研究对象大幅度扩展 的情况下,其中可能包含 Twitter、微博等社交媒体信 息,由不同的用户产生不同呈现形式的数据,如数值 型、文本型、图形图像、音频类型和视频类型,这些大 量涌入的非结构或半结构化数据,必然需要通过预 处理技术将这些数据转化为结构化数据,以供后续 分析[14] 。 在多元化信息方面则需要根据分析需求加以融 合[15-16] 。 多源异构是大数据的基本特征之一,多元 数据的融合也成为大数据分析处理的重要环节。 根 据实际的问题场景,多元信息的融合有利于进一步 挖掘数据的价值,提升信息分析的有效性和准确性 的作用;通过多元信息交叉印证,可以减少信息错误 与疏漏,提供决策的准确性。 对于大数据情报分析 来说,多元化信息的融合已经成为一个重要的理念 和必不可少的需求,具体的表现形式包括传感数据 与社会数据的融合、历史数据与实时数据的融合、线 上数据与线下数据的融合、内部数据与外部数据的 融合等。 深度挖掘方面,针对海量的包含丰富而复杂信 息的数据,简单的统计分析已不能满足决策需求,为 了从中发现潜在模式以及关系,需要利用的算法包 括简单方法、基于概率论的方法、基于模糊推理的方 法以及人工智能算法等[17-21] 。 简单的算法包括加 权平均、单元或者多元线性回归等[21] 。 基于概率的 算法则有贝叶斯估计、贝叶斯滤波、贝叶斯推理网络 和 D⁃S 证据理论等。 基于模糊推理的方法则有处理 数据模糊性、不完全行和不同粒度的模糊集和粗糙 集方法[22-24] 。 人工智能计算方法如神经网络、遗传 算法、蚁群算法、机器学习、深度学习算法可以处理 不完善的数据,在处理数据的过程中不断地学习与 归纳,从海量的数据中学习知识和发现规律。 大数 据情报分析的数据具有关系复杂、数据漂移、超高 维、噪声多以及属性稀疏等特点,导致传统的数据挖 掘和机器学习算法难以有效地进行数据处理和情报 分析,为此需要研究新的机器学习理论和方法。 另 外,需要研究适合大数据分布式处理的数据挖掘编 程模型和分布式并行化执行机制,支持数据挖掘算 法中迭代、递归、聚合、集成、归并等复杂算法编程, 以及在现有的并行计算平台上设计和实现复杂度 低、并行性高的分布式并行化机器学习与数据挖掘 算法。 3 大数据情报分析应用展望和发展 机遇 大数据技术给情报分析的发展带来了深刻的影 响和变革,也给情报学研究带来的前所未有的机遇, ·722· 智 能 系 统 学 报 第 11 卷
第6期 黄河燕,等:大数据情报分析发展机遇及其挑战 .723, 如图1所示。在海量情报知识库构建管理平台以及 合在一起导致大数据情报分析中的数据呈现出明显 高效能情报大数据存储与并行计算云平台的支撑之 的异构性。数据融合以数据提取、转换、聚合为基础 下,本文从情报大数据素材采集、数据预处理、数据 的核心技术,完成各异构数据源之间的数据分享与 分析和应用过程中的各个环节展望大数据情报分析 数据归并。利用异构信息融合技术,实现统一的数 将会发生的巨大变化。 据检索和数据展现,将相互关联的分布式异构数据 采集 >预处理>分析> 源融合后进行提取、转换、聚合,实现自动化构建专 应用 题数据库、领域数据仓库等功能。 海量情报知识库构建与管理 专题数据库是以某一种产品或某一类技术为主 高效能情报大数据存储与并行计算云平台 题,对全部信息进行检索、下载、存储,收集到的专题 信息数据的集合。发展专题信息提取技术,实现基 图1大数据情报分析展望示意图 于专题的高效检索、数据提取、数据归并等功能,根 Fig.1 Big data intelligence analysis outlook diagram 据用户需求对专题数据进行筛选。专题数据库将筛 3.1大数据情报素材采集 选后的专题数据集合进行归并入库,实现数据的检 在大数据情报分析的数据和素材的采集阶段, 索、统计、分析等功能。 海量网络信息采集系统将是一个具备以下功能和特 来自于分散的操作型数据,按照一定的主题域 征的智能系统: 1)通过智能的信息源发现与管理技术筛选并 (领域)被抽取出来,进行加工与集成,统一与综合 甄别有价值的信息源。不同的数据源包含的信息价 之后形成数据仓库。领域数据抽取时需要利用领域 概念建模方法—需要运用实体建模法从纷繁的数 值密度也不尽相同,过滤掉无价值或者价值过低的 数据源可以有效地减少数据的存储与处理开销,更 据背后抽象出实体、事件、说明等抽象的实体,从而 进一步提高后续分析的效率和准确度。 找出实体间的相互的关联性。这种方式可以保证数 2)大规模网络信息获取需要支持实时、高并 据仓库所需的数据能按照数据模型达到一致性和关 发、快速的网络内容获取。目前从网络产生的日志 联性。这些数据定义直接输入系统中,作为元数据 信息到机器传感器监测到的设备数据产生的速度非 存储,供数据管理和分析使用。 常快,大数据情报分析系统需要能够近实时快速地 在数据的预处理阶段,由数据中间层在程序应 获取相关的数据。 用层与底层数据源之间构建统一的数据层,该层提 3)通过受控信息源突破技术获取受控或者管 供一个统一的数据逻辑视图来隐藏底层数据源的数 制的信息,这些受控或受管制的信息可能会蕴含更 据细节,使用户可以把各异构数据源看为一个统 大的价值,从而为后续分析提供更全面、更有价值的 的整体,能够用透明的方式访问各类数据。统一的 信息。信息系统中记录的主要是结果数据,实际上 数据中间层可以使得大数据情报分析对类型繁多、 存在大量的过程数据并没有在数据库中记录,而这 结构各异的多模态数据的访问和分析更加方便。这 些过程数据以及中间结果信息对于情报信息分析具 些不同类型的信息从不同的角度反映出事物的特征 有重要作用,智能信息采集系统能够获取掩盖在业 和信息,通过统一的数据接口将这些数据汇聚融合 务应用系统之下的过程数据。 到一起,能够更加深刻全面地揭示事物之间的联系, 4)使用预处理技术移除冗余、无关信息。在采 挖掘出新的关联和模式等有价值的知识和情报信 集到的素材经过大数据情报分析系统之前,通过清 息。多模态数据的融合可以说是大数据情报分析的 除无关信息以及不同数据源之间采集到的冗余数 固有特征,也是其发展的必然趋势。 据,可以有效地减少下一阶段中数据处理的负担。 在数据预处理阶段需要进行的另一项重要工作 3.2大数据情报预处理 是数据歧义消除和语义标签的计算。同一个词在不 不同的数据来源甚至同一数据来源都会产生格 同的上下文中有不同的含义,以“apple”为例,在谈论 式不尽统一的数据。比如对同一个情报主题,情报 公司的语境中的语义是生产计算机、手机等设备的美 数据可以由不同的网站和不同的用户产生,不仅不 国苹果公司,在饮食相关语境中的含义则为水果。 同的网站产生的数据模态不一致,即使同一个网站 3.3数据分析 的每一个用户所产生的信息也可能会包含不同呈现 大数据情报分析的数据分析阶段主要涉及以下 形式的数据,如音频、视频、图片和文本等格式。这 几个方面。 些结构化、半结构化甚至非结构化的多模态数据组 1)大数据情报信息挖掘。以大数据情报信息
如图 1 所示。 在海量情报知识库构建管理平台以及 高效能情报大数据存储与并行计算云平台的支撑之 下,本文从情报大数据素材采集、数据预处理、数据 分析和应用过程中的各个环节展望大数据情报分析 将会发生的巨大变化。 图 1 大数据情报分析展望示意图 Fig.1 Big data intelligence analysis outlook diagram 3.1 大数据情报素材采集 在大数据情报分析的数据和素材的采集阶段, 海量网络信息采集系统将是一个具备以下功能和特 征的智能系统: 1)通过智能的信息源发现与管理技术筛选并 甄别有价值的信息源。 不同的数据源包含的信息价 值密度也不尽相同,过滤掉无价值或者价值过低的 数据源可以有效地减少数据的存储与处理开销,更 进一步提高后续分析的效率和准确度。 2)大规模网络信息获取需要支持实时、高并 发、快速的网络内容获取。 目前从网络产生的日志 信息到机器传感器监测到的设备数据产生的速度非 常快,大数据情报分析系统需要能够近实时快速地 获取相关的数据。 3)通过受控信息源突破技术获取受控或者管 制的信息,这些受控或受管制的信息可能会蕴含更 大的价值,从而为后续分析提供更全面、更有价值的 信息。 信息系统中记录的主要是结果数据,实际上 存在大量的过程数据并没有在数据库中记录,而这 些过程数据以及中间结果信息对于情报信息分析具 有重要作用,智能信息采集系统能够获取掩盖在业 务应用系统之下的过程数据。 4)使用预处理技术移除冗余、无关信息。 在采 集到的素材经过大数据情报分析系统之前,通过清 除无关信息以及不同数据源之间采集到的冗余数 据,可以有效地减少下一阶段中数据处理的负担。 3.2 大数据情报预处理 不同的数据来源甚至同一数据来源都会产生格 式不尽统一的数据。 比如对同一个情报主题,情报 数据可以由不同的网站和不同的用户产生,不仅不 同的网站产生的数据模态不一致,即使同一个网站 的每一个用户所产生的信息也可能会包含不同呈现 形式的数据,如音频、视频、图片和文本等格式。 这 些结构化、半结构化甚至非结构化的多模态数据组 合在一起导致大数据情报分析中的数据呈现出明显 的异构性。 数据融合以数据提取、转换、聚合为基础 的核心技术,完成各异构数据源之间的数据分享与 数据归并。 利用异构信息融合技术,实现统一的数 据检索和数据展现,将相互关联的分布式异构数据 源融合后进行提取、转换、聚合,实现自动化构建专 题数据库、领域数据仓库等功能。 专题数据库是以某一种产品或某一类技术为主 题,对全部信息进行检索、下载、存储,收集到的专题 信息数据的集合。 发展专题信息提取技术,实现基 于专题的高效检索、数据提取、数据归并等功能,根 据用户需求对专题数据进行筛选。 专题数据库将筛 选后的专题数据集合进行归并入库,实现数据的检 索、统计、分析等功能。 来自于分散的操作型数据,按照一定的主题域 (领域)被抽取出来,进行加工与集成,统一与综合 之后形成数据仓库。 领域数据抽取时需要利用领域 概念建模方法———需要运用实体建模法从纷繁的数 据背后抽象出实体、事件、说明等抽象的实体,从而 找出实体间的相互的关联性。 这种方式可以保证数 据仓库所需的数据能按照数据模型达到一致性和关 联性。 这些数据定义直接输入系统中,作为元数据 存储,供数据管理和分析使用。 在数据的预处理阶段,由数据中间层在程序应 用层与底层数据源之间构建统一的数据层,该层提 供一个统一的数据逻辑视图来隐藏底层数据源的数 据细节,使用户可以把各异构数据源看为一个统一 的整体,能够用透明的方式访问各类数据。 统一的 数据中间层可以使得大数据情报分析对类型繁多、 结构各异的多模态数据的访问和分析更加方便。 这 些不同类型的信息从不同的角度反映出事物的特征 和信息,通过统一的数据接口将这些数据汇聚融合 到一起,能够更加深刻全面地揭示事物之间的联系, 挖掘出新的关联和模式等有价值的知识和情报信 息。 多模态数据的融合可以说是大数据情报分析的 固有特征,也是其发展的必然趋势。 在数据预处理阶段需要进行的另一项重要工作 是数据歧义消除和语义标签的计算。 同一个词在不 同的上下文中有不同的含义,以“apple”为例,在谈论 公司的语境中的语义是生产计算机、手机等设备的美 国苹果公司,在饮食相关语境中的含义则为水果。 3.3 数据分析 大数据情报分析的数据分析阶段主要涉及以下 几个方面。 1)大数据情报信息挖掘。 以大数据情报信息 第 6 期 黄河燕,等:大数据情报分析发展机遇及其挑战 ·723·