当前位置：和泉文库 > 电气与自动化 > 浏览文档

【智能系统】基于SQL-on-Hadoop查询引擎的日志挖掘及其应用

文件格式：PDF，文件大小：5.15MB，售价：4.65元

文档详细内容（约12页）

第12卷第5期智能系统学报 Vol.12 No.5 2017年10月 CAAI Transactions on Intelligent Systems 0ct.2017 D0I:10.11992/is.201706016 网络出版地址：htp:/kns.cmki.net/kcms/detail/23.1538.TP.20171021.1350.014.html 基于SQL-on-Hadoop查询引擎的日志挖掘及其应用何明，常盟盟，刘郭洋2，顾程祥2，彭继克2 (1.北京工业大学信息学部，北京100124：2.海通证券股份有限公司信息技术管理部，上海200001) 摘要：随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富，海量数据的实时处理需求日益增多，传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下，随着开放式处理平台的发展，能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Hop的优势，本文首先研究了基于大数据技术的网络日志分析方法，构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Hiwe、Impala和Spark SOL这3种具有代表性的SQL-om-Hadoop查询系统实例.并展示了这类系统的性能特点。采用TPCH测试基准对它们的决策支持能力进行测试及评估，通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用，为进一步的研究工作奠定了基础。关键词：大数据；日志分析：数据挖掘；Hadoop:查询引擎；数据采集：索引存储；证券行业中图分类号：TP391文献标志码：A文章编号：1673-4785(2017)05-0717-12 中文引用格式：何明，常盟盟，刘郭洋，等.基于SQL-on-Hadoop查询引擎的日志挖掘及其应用[J].智能系统学报，2017,12(5)： 717-728. 英文引用格式：HE Ming,CHANG Mengmeng,LIU Guoyang,etal.Log mining and application based on sql-on-hadoop query engine[J].CAAI transactions on intelligent systems,2017,12(5):717-728. Log mining and application based on sql-on-hadoop query engine HE Ming',CHANG Mengmeng',LIU Guoyang?,GU Chengxiang?,PENG Jike2 (1.Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China;2.Information Technology Management Department,Haitong Securities Co.,Ltd.,Shanghai 200001,China) Abstract:With the rapid development of computing and networking technologies,and the increase in the number of data acquisition methods,the demand for real-time processing of massive amounts of log data is increasing every day,and there is a calculation bottleneck when traditional log analysis technology is used to process massive amounts of data.With the development of open processing platforms in the era of big data,a number of big data processing systems have emerged for dealing with large-scale and diverse data.To effectively apply the advantages of Hadoop to the original businesses,in this study,we first investigated network log analysis methods based on big data technology and constructed a network log analysis platform for the acquisition,analysis,storage,high- efficiency and flexible queries,and the calculation of trillions of log entries.In addition,we compared and analyzed three representative SQL-on-Hadoop query systems including Hive,Impala,and Spark SQL,and identified the performance characteristics of this type of system.We used the TPC-H testing reference to test and assess their decision-making support abilities.We drew some useful conclusions from the analysis of the experimental data.We also suggest a few typical applications for this analysis and processing system for massive log data in the securities fields,which provides a solid foundation for further research. Keywords:big data;log analysis;data mining;Hadoop;query engine;data collection;indexed storage; securities business 随着互联网的飞速发展和逐层推进，企业内部业网络中的计算机设备和网络组件持久地记录着的规模和业务量也不断增加，致使数据量猛增。企海量的网络日志。日志文件是系统软硬件信息和用户行为信息记录的载体，通过日志分析能够实时收稿日期：2017-06-07.网络出版日期：2017-10-21. 基金项目：国家自然科学基金项目(91646201.91546111,60803086)：国家科获取设备、网络运行状态和用户行为交易等信息，技支撑计划子课题(2013BAH2IB02-01)；北京市自然科学基金项目(4153058,4113076)：北京市教委重点项目有利于保证系统的稳定运行和来往业务的安全性。 (KZ20160005009):北京市教委面上项目(KM201710005023). 通信作者：何明.E-mail:heming(@bjut.cdu.cn. 目前，较为成熟的日志集中管理系统解决了各类设

第１２卷第５期智能系统学报Ｖｏｌ．１２ №．５２０１７年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１７０６０１６网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７１０２１．１３５０．０１４．ｈｔｍｌ基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询引擎的日志挖掘及其应用何明１，常盟盟１，刘郭洋２，顾程祥２，彭继克２（１．北京工业大学信息学部，北京１００１２４；２．海通证券股份有限公司信息技术管理部，上海２００００１）摘要：随着计算机和网络技术的迅猛发展以及数据获取手段的不断丰富，海量数据的实时处理需求日益增多，传统的日志分析技术在处理海量数据时存在计算瓶颈。大数据时代下，随着开放式处理平台的发展，能够处理大规模且多样化数据的大数据处理系统应运而生。为了让原有的业务能够充分利用Ｈａｄｏｏｐ的优势，本文首先研究了基于大数据技术的网络日志分析方法，构建了网络日志分析平台以实现万亿级日志采集、解析、存储和高效、灵活的查询与计算。对比分析了Ｈｉｖｅ、Ｉｍｐａｌａ和ＳｐａｒｋＳＱＬ这３种具有代表性的ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询系统实例，并展示了这类系统的性能特点。采用ＴＰＣ⁃Ｈ测试基准对它们的决策支持能力进行测试及评估，通过对实验数据的分析和解释得到了若干有益的结论。实现了海量日志数据计算与分析在证券领域的几种典型应用，为进一步的研究工作奠定了基础。关键词：大数据；日志分析；数据挖掘；Ｈａｄｏｏｐ；查询引擎；数据采集；索引存储；证券行业中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）０５－０７１７－１２中文引用格式：何明，常盟盟，刘郭洋，等．基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询引擎的日志挖掘及其应用［Ｊ］．智能系统学报，２０１７，１２（５）：７１７－７２８．英文引用格式：ＨＥＭｉｎｇ，ＣＨＡＮＧＭｅｎｇｍｅｎｇ，ＬＩＵＧｕｏｙａｎｇ，ｅｔａｌ．Ｌｏｇｍｉｎｉｎｇａｎｄａｐｐｌｉｃａｔｉｏｎｂａｓｅｄｏｎｓｑｌ⁃ｏｎ⁃ｈａｄｏｏｐｑｕｅｒｙｅｎｇｉｎｅ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（５）：７１７－７２８．Ｌｏｇｍｉｎｉｎｇａｎｄａｐｐｌｉｃａｔｉｏｎｂａｓｅｄｏｎｓｑｌ⁃ｏｎ⁃ｈａｄｏｏｐｑｕｅｒｙｅｎｇｉｎｅＨＥＭｉｎｇ１，ＣＨＡＮＧＭｅｎｇｍｅｎｇ１，ＬＩＵＧｕｏｙａｎｇ２，ＧＵＣｈｅｎｇｘｉａｎｇ２，ＰＥＮＧＪｉｋｅ２（１．ＦａｃｕｌｔｙｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＢｅｉｊｉｎｇＵｎｉｖｅｒｓｉｔｙｏｆＴｅｃｈｎｏｌｏｇｙ，Ｂｅｉｊｉｎｇ１００１２４，Ｃｈｉｎａ；２．ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＭａｎａｇｅｍｅｎｔＤｅｐａｒｔｍｅｎｔ，ＨａｉｔｏｎｇＳｅｃｕｒｉｔｉｅｓＣｏ．，Ｌｔｄ．，Ｓｈａｎｇｈａｉ２００００１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｗｉｔｈｔｈｅｒａｐｉｄｄｅｖｅｌｏｐｍｅｎｔｏｆｃｏｍｐｕｔｉｎｇａｎｄｎｅｔｗｏｒｋｉｎｇｔｅｃｈｎｏｌｏｇｉｅｓ，ａｎｄｔｈｅｉｎｃｒｅａｓｅｉｎｔｈｅｎｕｍｂｅｒｏｆｄａｔａａｃｑｕｉｓｉｔｉｏｎｍｅｔｈｏｄｓ，ｔｈｅｄｅｍａｎｄｆｏｒｒｅａｌ⁃ｔｉｍｅｐｒｏｃｅｓｓｉｎｇｏｆｍａｓｓｉｖｅａｍｏｕｎｔｓｏｆｌｏｇｄａｔａｉｓｉｎｃｒｅａｓｉｎｇｅｖｅｒｙｄａｙ，ａｎｄｔｈｅｒｅｉｓａｃａｌｃｕｌａｔｉｏｎｂｏｔｔｌｅｎｅｃｋｗｈｅｎｔｒａｄｉｔｉｏｎａｌｌｏｇａｎａｌｙｓｉｓｔｅｃｈｎｏｌｏｇｙｉｓｕｓｅｄｔｏｐｒｏｃｅｓｓｍａｓｓｉｖｅａｍｏｕｎｔｓｏｆｄａｔａ．Ｗｉｔｈｔｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆｏｐｅｎｐｒｏｃｅｓｓｉｎｇｐｌａｔｆｏｒｍｓｉｎｔｈｅｅｒａｏｆｂｉｇｄａｔａ，ａｎｕｍｂｅｒｏｆｂｉｇｄａｔａｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｓｈａｖｅｅｍｅｒｇｅｄｆｏｒｄｅａｌｉｎｇｗｉｔｈｌａｒｇｅ⁃ｓｃａｌｅａｎｄｄｉｖｅｒｓｅｄａｔａ．ＴｏｅｆｆｅｃｔｉｖｅｌｙａｐｐｌｙｔｈｅａｄｖａｎｔａｇｅｓｏｆＨａｄｏｏｐｔｏｔｈｅｏｒｉｇｉｎａｌｂｕｓｉｎｅｓｓｅｓ，ｉｎｔｈｉｓｓｔｕｄｙ，ｗｅｆｉｒｓｔｉｎｖｅｓｔｉｇａｔｅｄｎｅｔｗｏｒｋｌｏｇａｎａｌｙｓｉｓｍｅｔｈｏｄｓｂａｓｅｄｏｎｂｉｇｄａｔａｔｅｃｈｎｏｌｏｇｙａｎｄｃｏｎｓｔｒｕｃｔｅｄａｎｅｔｗｏｒｋｌｏｇａｎａｌｙｓｉｓｐｌａｔｆｏｒｍｆｏｒｔｈｅａｃｑｕｉｓｉｔｉｏｎ，ａｎａｌｙｓｉｓ，ｓｔｏｒａｇｅ，ｈｉｇｈ⁃ ｅｆｆｉｃｉｅｎｃｙａｎｄｆｌｅｘｉｂｌｅｑｕｅｒｉｅｓ，ａｎｄｔｈｅｃａｌｃｕｌａｔｉｏｎｏｆｔｒｉｌｌｉｏｎｓｏｆｌｏｇｅｎｔｒｉｅｓ．Ｉｎａｄｄｉｔｉｏｎ，ｗｅｃｏｍｐａｒｅｄａｎｄａｎａｌｙｚｅｄｔｈｒｅｅｒｅｐｒｅｓｅｎｔａｔｉｖｅＳＱＬ⁃ｏｎ⁃ＨａｄｏｏｐｑｕｅｒｙｓｙｓｔｅｍｓｉｎｃｌｕｄｉｎｇＨｉｖｅ，Ｉｍｐａｌａ，ａｎｄＳｐａｒｋＳＱＬ，ａｎｄｉｄｅｎｔｉｆｉｅｄｔｈｅｐｅｒｆｏｒｍａｎｃｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｔｈｉｓｔｙｐｅｏｆｓｙｓｔｅｍ．ＷｅｕｓｅｄｔｈｅＴＰＣ⁃Ｈｔｅｓｔｉｎｇｒｅｆｅｒｅｎｃｅｔｏｔｅｓｔａｎｄａｓｓｅｓｓｔｈｅｉｒｄｅｃｉｓｉｏｎ⁃ｍａｋｉｎｇｓｕｐｐｏｒｔａｂｉｌｉｔｉｅｓ．Ｗｅｄｒｅｗｓｏｍｅｕｓｅｆｕｌｃｏｎｃｌｕｓｉｏｎｓｆｒｏｍｔｈｅａｎａｌｙｓｉｓｏｆｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｄａｔａ．Ｗｅａｌｓｏｓｕｇｇｅｓｔａｆｅｗｔｙｐｉｃａｌａｐｐｌｉｃａｔｉｏｎｓｆｏｒｔｈｉｓａｎａｌｙｓｉｓａｎｄｐｒｏｃｅｓｓｉｎｇｓｙｓｔｅｍｆｏｒｍａｓｓｉｖｅｌｏｇｄａｔａｉｎｔｈｅｓｅｃｕｒｉｔｉｅｓｆｉｅｌｄｓ，ｗｈｉｃｈｐｒｏｖｉｄｅｓａｓｏｌｉｄｆｏｕｎｄａｔｉｏｎｆｏｒｆｕｒｔｈｅｒｒｅｓｅａｒｃｈ．Ｋｅｙｗｏｒｄｓ：ｂｉｇｄａｔａ；ｌｏｇａｎａｌｙｓｉｓ；ｄａｔａｍｉｎｉｎｇ；Ｈａｄｏｏｐ；ｑｕｅｒｙｅｎｇｉｎｅ；ｄａｔａｃｏｌｌｅｃｔｉｏｎ；ｉｎｄｅｘｅｄｓｔｏｒａｇｅ；ｓｅｃｕｒｉｔｉｅｓｂｕｓｉｎｅｓｓ收稿日期：２０１７－０６－０７．网络出版日期：２０１７－１０－２１．基金项目：国家自然科学基金项目（９１６４６２０１，９１５４６１１１，６０８０３０８６）；国家科技支撑计划子课题（２０１３ＢＡＨ２１Ｂ０２－０１）；北京市自然科学基金项目（４１５３０５８，４１１３０７６）；北京市教委重点项目（ＫＺ２０１６０００５００９）；北京市教委面上项目（ＫＭ２０１７１０００５０２３）．通信作者：何明．Ｅ⁃ｍａｉｌ：ｈｅｍｉｎｇ＠ｂｊｕｔ．ｅｄｕ．ｃｎ．随着互联网的飞速发展和逐层推进，企业内部的规模和业务量也不断增加，致使数据量猛增。企业网络中的计算机设备和网络组件持久地记录着海量的网络日志。日志文件是系统软硬件信息和用户行为信息记录的载体，通过日志分析能够实时获取设备、网络运行状态和用户行为交易等信息，有利于保证系统的稳定运行和来往业务的安全性。目前，较为成熟的日志集中管理系统解决了各类设

·718· 智能系统学报第12卷备、服务器和应用日志的采集与格式统一问题，日得到了若干有益的结论：志分析也从最初简单的正则匹配向结构化查询、报 3)实现了大规模网络日志数据分析与计算在证表和预测演进山。越来越多的行业领域面临海量券领域的几种典型应用。 (volume)、高速(velocity)和多样(variety)等多V挑 1 相关工作战，大数据时代已真正到来[2-)。互联网中海量的信息为证券领域日志分析提大数据技术在互联网领域海量网络日志分析和供了丰富的数据支撑，如何利用大数据分析技术进处理过程中得到了广泛的应用，日志分析系统主要行实时准确的日志分析成为重要的科学问题。在包括日志同步、数据存储、分布式计算和数据仓库等大型证券公司的内部网络中，随着网络带宽的迅速相关技术。开源的日志分析系统如Facebook的扩容日志量急剧增长且日志源众多，包括网上交易 Scribet6],Apache Chukwat7],LinkedIn Kafkats], 日志、移动证券日志和网站日志等主要系统的日 Cloudera的Flume)等。Facebook公司庞大的用户群志。以海通证券为例，目前在全国设有几十个节体产生了大量的信息与社交数据，现有8亿多用户点，几百台服务器，峰值在线用户约几十万，每个节的信息需要处理，产生了大规模的数据和日志：同点各部署了1台负载均衡设备。网上交易应用服务时，离线的大规模数据分析计算已无法满足实时数器全天24小时将客户请求数据与应答数据实时或据分析的用户需求，Scribe结合了Google的分布式小批量定时写入磁盘日志文件，每台交易应用服务文件系统GFS[10](google file system,GFS)。操作流器的日志文件大小为100MB~3GB,总计在100GB 程是收集异构数据源上的日志，集中存储到分布式左右。同时，每台网上交易应用服务器还会生成一文件系统，从而在此基础上进行统计分析。Amazon 份发送给柜台程序的网关日志数据。此外，各节点基于S3和EC2,开发了Amazon EMR来提供大数据负载均衡设备的日志采用SNMP协议进行采集，采处理服务，可以将数据分布在可重新调整大小的集每个站点的网络流量、用户连接数据。每日合计 EC2集群中进行处理，包括日志分析、索引、数据仓有3亿多条日志，总量共计约300GB。仅上述3类库和机器学习等。阿里巴巴集团使用目前国内最日志存储一年就将产生约108TB数据，若接入更多大的Hadoop集群“云梯”进行各部门产品的线上数设备、操作系统、业务平台日志，数据规模则更大。据备份、系统日志以及爬虫数据分析，并建设开放传统的日志处理方法在面对海量大数据时，其存储平台为个人和企业提供各种增值服务。腾讯微信方式和计算能力都受到了限制，因此分布式存储和等应用产品拥有上亿级别的用户，产生了海量的个并行计算成为了新的发展趋势。如何采集、传输、人用户日志数据，这些数据中蕴藏着巨大的商业价存储、分析及应用大规模的日志数据，已成为证券值，并提出“大数据营销”的概念。人人网基于行业在大数据时代下面临的重大挑战。 Hadoop的Hive)、HBase[12]和Streamingl]组件， Hadoop)分布式处理平台为大数据存储和分析构建了SNS推荐平台进行分析计算、内容推荐等工提供了有效的解决方案。在大数据应用方面，虽然作。百度的高性能计算系统规划中的架构将有超学术界和工业界对大数据的关注各有侧重，但有一过1万个节点，每天的数据生成量在10PB以上，主个共同的认识：大数据只有和具体的行业深入结合要用于日志的存储分析以及统计挖掘等功能。Wi 才能落到实处，才能产生真正的价值。通过前期的等设计了Analysis Farm摒弃了传统的关系型数据积累和算法的升级，大数据应用将对证券行业产生 (relational database management system,RDBMS), 革命性影响。利用NoSQL(not only SQL)数据库MongoDB构建了本文的主要贡献如下：可横向扩展的日志分析平台，以支撑NetFlow日志 1)研究基于SQL-on-Hadoop查询系统的性能特存储和查询4。Rabkin等设计了基于Hadoop的日点，对比分析了Hive、Impala和Spark SQL这3种具志收集和分析系统Chukwa,日志处理程序在有代表性的SQL-on-Hadoop查询系统实例，构建了 MapReduce框架上开发。文献[l6-17]从原位海量日志采集与实时计算分析平台：分析的角度出发，分别实现了针对大规模日志分析 2)采用TPC-H测试基准对它们的决策支持能的MapReduce(In-situ MapReduce)和Continuous处力进行测试及评估，通过对实验数据的分析和解释理机制，但MapReduce模型计算代价很大，并不能

备、服务器和应用日志的采集与格式统一问题，日志分析也从最初简单的正则匹配向结构化查询、报表和预测演进［１］。越来越多的行业领域面临海量（ｖｏｌｕｍｅ）、高速（ｖｅｌｏｃｉｔｙ）和多样（ｖａｒｉｅｔｙ）等多Ｖ挑战，大数据时代已真正到来［２－４］。互联网中海量的信息为证券领域日志分析提供了丰富的数据支撑，如何利用大数据分析技术进行实时准确的日志分析成为重要的科学问题。在大型证券公司的内部网络中，随着网络带宽的迅速扩容日志量急剧增长且日志源众多，包括网上交易日志、移动证券日志和网站日志等主要系统的日志。以海通证券为例，目前在全国设有几十个节点，几百台服务器，峰值在线用户约几十万，每个节点各部署了１台负载均衡设备。网上交易应用服务器全天２４小时将客户请求数据与应答数据实时或小批量定时写入磁盘日志文件，每台交易应用服务器的日志文件大小为１００ＭＢ～３ＧＢ，总计在１００ＧＢ左右。同时，每台网上交易应用服务器还会生成一份发送给柜台程序的网关日志数据。此外，各节点负载均衡设备的日志采用ＳＮＭＰ协议进行采集，采集每个站点的网络流量、用户连接数据。每日合计有３亿多条日志，总量共计约３００ＧＢ。仅上述３类日志存储一年就将产生约１０８ＴＢ数据，若接入更多设备、操作系统、业务平台日志，数据规模则更大。传统的日志处理方法在面对海量大数据时，其存储方式和计算能力都受到了限制，因此分布式存储和并行计算成为了新的发展趋势。如何采集、传输、存储、分析及应用大规模的日志数据，已成为证券行业在大数据时代下面临的重大挑战。Ｈａｄｏｏｐ［５］分布式处理平台为大数据存储和分析提供了有效的解决方案。在大数据应用方面，虽然学术界和工业界对大数据的关注各有侧重，但有一个共同的认识：大数据只有和具体的行业深入结合才能落到实处，才能产生真正的价值。通过前期的积累和算法的升级，大数据应用将对证券行业产生革命性影响。本文的主要贡献如下：１）研究基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询系统的性能特点，对比分析了Ｈｉｖｅ、Ｉｍｐａｌａ和ＳｐａｒｋＳＱＬ这３种具有代表性的ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询系统实例，构建了海量日志采集与实时计算分析平台；２）采用ＴＰＣ⁃Ｈ测试基准对它们的决策支持能力进行测试及评估，通过对实验数据的分析和解释得到了若干有益的结论；３）实现了大规模网络日志数据分析与计算在证券领域的几种典型应用。１相关工作大数据技术在互联网领域海量网络日志分析和处理过程中得到了广泛的应用，日志分析系统主要包括日志同步、数据存储、分布式计算和数据仓库等相关技术。开源的日志分析系统如Ｆａｃｅｂｏｏｋ的Ｓｃｒｉｂｅ［６］，Ａｐａｃｈｅ的Ｃｈｕｋｗａ［７］，ＬｉｎｋｅｄＩｎ的Ｋａｆｋａ［８］，Ｃｌｏｕｄｅｒａ的Ｆｌｕｍｅ［９］等。Ｆａｃｅｂｏｏｋ公司庞大的用户群体产生了大量的信息与社交数据，现有８亿多用户的信息需要处理，产生了大规模的数据和日志；同时，离线的大规模数据分析计算已无法满足实时数据分析的用户需求，Ｓｃｒｉｂｅ结合了Ｇｏｏｇｌｅ的分布式文件系统ＧＦＳ［１０］（ｇｏｏｇｌｅｆｉｌｅｓｙｓｔｅｍ，ＧＦＳ）。操作流程是收集异构数据源上的日志，集中存储到分布式文件系统，从而在此基础上进行统计分析。Ａｍａｚｏｎ基于Ｓ３和ＥＣ２，开发了ＡｍａｚｏｎＥＭＲ来提供大数据处理服务，可以将数据分布在可重新调整大小的ＥＣ２集群中进行处理，包括日志分析、索引、数据仓库和机器学习等。阿里巴巴集团使用目前国内最大的Ｈａｄｏｏｐ集群“云梯”进行各部门产品的线上数据备份、系统日志以及爬虫数据分析，并建设开放平台为个人和企业提供各种增值服务。腾讯微信等应用产品拥有上亿级别的用户，产生了海量的个人用户日志数据，这些数据中蕴藏着巨大的商业价值，并提出 “ 大数据营销” 的概念。人人网基于Ｈａｄｏｏｐ的Ｈｉｖｅ［１１］、ＨＢａｓｅ［１２］和Ｓｔｒｅａｍｉｎｇ［１３］组件，构建了ＳＮＳ推荐平台进行分析计算、内容推荐等工作。百度的高性能计算系统规划中的架构将有超过１万个节点，每天的数据生成量在１０ＰＢ以上，主要用于日志的存储分析以及统计挖掘等功能。Ｗｅｉ等设计了ＡｎａｌｙｓｉｓＦａｒｍ摒弃了传统的关系型数据库（ｒｅｌａｔｉｏｎａｌｄａｔａｂａｓｅｍａｎａｇｅｍｅｎｔｓｙｓｔｅｍ，ＲＤＢＭＳ），利用ＮｏＳＱＬ（ｎｏｔｏｎｌｙＳＱＬ）数据库ＭｏｎｇｏＤＢ构建了可横向扩展的日志分析平台，以支撑ＮｅｔＦｌｏｗ日志存储和查询［１４］。Ｒａｂｋｉｎ等设计了基于Ｈａｄｏｏｐ的日志收集和分析系统Ｃｈｕｋｗａ，日志处理程序在ＭａｐＲｅｄｕｃｅ框架上开发［１５］。文献［１６－１７］从原位分析的角度出发，分别实现了针对大规模日志分析的ＭａｐＲｅｄｕｃｅ（Ｉｎ⁃ｓｉｔｕＭａｐＲｅｄｕｃｅ）和Ｃｏｎｔｉｎｕｏｕｓ处理机制，但ＭａｐＲｅｄｕｃｅ模型计算代价很大，并不能 ·７１８· 智能系统学报第１２卷

第5期何明，等：基于SQL-on-Hadoop查询引擎的日志挖掘及其应用 ·719· 很好地支持迭代运算。主要分为文本数据、数据库数据和实时/准实时数然而HDFS1]和MapReducet]大数据处理架构据等。主要是针对静态数据的批处理，在运算过程中产生 2.1HDS数据采集的大量/O操作无法保证处理过程的实时性。针对网络日志的生成是分布式的，与传统的日志管上述问题，本文将研究基于SQL-on-Hadoop查询引理系统一样，日志采集是本文平台的基础。本文平擎构建网络日志分析平台，通过使用广泛的标准台采集的日志直接存储在Hadoop文件系统 SQL语言来实现快速、灵活的查询性能。通过利用 (HDFS)中，由于平台构建于Hadoop之上，能够处 TB级日志数据对存储、查询性能进行测试、优化和理海量分布式存储的日志数据，同时易于水平扩比较，构建具有稳定性、高性能、可扩展性、易用性展，本文的日志数据基本流程按功能可划分为5层，和安全性的网络日志统一采集查询和监控平台，以如图1所示。满足对TB或PB级容量和万亿日志管理的应用需 1)原始数据层：业务上完成日志格式梳理，系统求，为面向证券行业的日志大数据分析及其应用提运行日志支持实时访问和采集接口。供技术支撑。 2)数据采集层：主要负责通用的日志数据解析 2基于Hadoop的结构化数据处理高效采集和安全可控。 3)数据处理层：主要包括对日志数据的批量式网络日志源的种类具有多样性的特点，包括结处理和实时处理。构化、半结构化和非结构化的数据。不同类型的日 4)数据服务层：主要提供标准的数据访问接口志存储方式有所不同。日志管理系统的采集器对 ODBC、JDBC、HIVE等。不同格式的日志进行标准化处理，从而以结构化的 5)数据展示层：实现实时监控类和报表类数据形式进行日志存储和分析。本文所采用的源数据的展示。数据处理原始数据层存储后处理 External Database HDFS Map/Reduce 数据服务层 :数据展示层 ”””””” ODBC Statistics Report Textfile 数据采集层 JDBC 实时处理 HIVE OLAP Network Sprak Data Cache Streaming 图1日志数据处理基本流程 Fig.1 Basic log data processing framework 根据应用需求，本文日志的采集方式分为以下on-Hadoop处理结果输出到RDBMS,供现有的日志 3种。分析系统进行报表及可视化处理。 1)文件导人：对已分布在个服务器磁盘的日志 2.2SQL-on-Hadoop查询引擎文件，经网络文件系统挂载，直接将日志文件导入 SQL是结构化数据的查询语言，SQL-on-Hadoop HDFS。该方式允许日志文件批量可靠导入，可在网是构建在Hadoop之上的SQL查询系统，利用络利用率低谷时段进行传送。 Hadoop能够进行海量数据(TB级别以上)的处理。 2)流数据导入：基于Apache Flume[2o]构建，实目前已有的SQL-on-Hadoop系统大致可以分为两大类：第一类将SQL查询转换为Map-Reduce job;第二现多个日志源数据实时汇聚，接收网上交易应用服类系统基于MPP(massively parallel processing)的设务器和网络设备发送的日志。计方式，仅仅使用Hadoop作为存储引擎，上层自行 3)RDBMS导人：为实现与现有日志系统兼容，实现分布式查询的逻辑。第一类系统的代表是基于Apache Sqoop2,实现与Oracle、MSQL和 Facebook的Hive。Hive是原始的SQL-on-Hadoop解 PostgreSQL等RDBMS对接，支持直接导入存储在上决方案。它是一个开源的Java项目，能够将SQL转述数据库中的数据记录。Sqoop同时可以将SQL 换成一系列可以在标准的Hadoop TaskTrackers上运

很好地支持迭代运算。然而ＨＤＦＳ［１８］和ＭａｐＲｅｄｕｃｅ［１９］大数据处理架构主要是针对静态数据的批处理，在运算过程中产生的大量Ｉ／Ｏ操作无法保证处理过程的实时性。针对上述问题，本文将研究基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询引擎构建网络日志分析平台，通过使用广泛的标准ＳＱＬ语言来实现快速、灵活的查询性能。通过利用ＴＢ级日志数据对存储、查询性能进行测试、优化和比较，构建具有稳定性、高性能、可扩展性、易用性和安全性的网络日志统一采集查询和监控平台，以满足对ＴＢ或ＰＢ级容量和万亿日志管理的应用需求，为面向证券行业的日志大数据分析及其应用提供技术支撑。２基于Ｈａｄｏｏｐ的结构化数据处理网络日志源的种类具有多样性的特点，包括结构化、半结构化和非结构化的数据。不同类型的日志存储方式有所不同。日志管理系统的采集器对不同格式的日志进行标准化处理，从而以结构化的形式进行日志存储和分析。本文所采用的源数据主要分为文本数据、数据库数据和实时／准实时数据等。２．１ＨＤＦＳ数据采集网络日志的生成是分布式的，与传统的日志管理系统一样，日志采集是本文平台的基础。本文平台采集的日志直接存储在Ｈａｄｏｏｐ文件系统（ＨＤＦＳ）中，由于平台构建于Ｈａｄｏｏｐ之上，能够处理海量分布式存储的日志数据，同时易于水平扩展，本文的日志数据基本流程按功能可划分为５层，如图１所示。１）原始数据层：业务上完成日志格式梳理，系统运行日志支持实时访问和采集接口。２）数据采集层：主要负责通用的日志数据解析、高效采集和安全可控。３）数据处理层：主要包括对日志数据的批量式处理和实时处理。４）数据服务层：主要提供标准的数据访问接口ＯＤＢＣ、ＪＤＢＣ、ＨＩＶＥ等。５）数据展示层：实现实时监控类和报表类数据的展示。图１日志数据处理基本流程Ｆｉｇ．１Ｂａｓｉｃｌｏｇｄａｔａｐｒｏｃｅｓｓｉｎｇｆｒａｍｅｗｏｒｋ根据应用需求，本文日志的采集方式分为以下３种。１）文件导入：对已分布在个服务器磁盘的日志文件，经网络文件系统挂载，直接将日志文件导入ＨＤＦＳ。该方式允许日志文件批量可靠导入，可在网络利用率低谷时段进行传送。２）流数据导入：基于ＡｐａｃｈｅＦｌｕｍｅ［２０］构建，实现多个日志源数据实时汇聚，接收网上交易应用服务器和网络设备发送的日志。３）ＲＤＢＭＳ导入：为实现与现有日志系统兼容，基于ＡｐａｃｈｅＳｑｏｏｐ［２１］，实现与Ｏｒａｃｌｅ、ＭｙＳＱＬ和ＰｏｓｔｇｒｅＳＱＬ等ＲＤＢＭＳ对接，支持直接导入存储在上述数据库中的数据记录。Ｓｑｏｏｐ同时可以将ＳＱＬ⁃ ｏｎ⁃Ｈａｄｏｏｐ处理结果输出到ＲＤＢＭＳ，供现有的日志分析系统进行报表及可视化处理。２．２ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询引擎ＳＱＬ是结构化数据的查询语言，ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ是构建在Ｈａｄｏｏｐ之上的ＳＱＬ查询系统，利用Ｈａｄｏｏｐ能够进行海量数据（ＴＢ级别以上）的处理。目前已有的ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ系统大致可以分为两大类：第一类将ＳＱＬ查询转换为Ｍａｐ⁃Ｒｅｄｕｃｅｊｏｂ；第二类系统基于ＭＰＰ（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｐｒｏｃｅｓｓｉｎｇ）的设计方式，仅仅使用Ｈａｄｏｏｐ作为存储引擎，上层自行实现分布式查询的逻辑。第一类系统的代表是Ｆａｃｅｂｏｏｋ的Ｈｉｖｅ。Ｈｉｖｅ是原始的ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ解决方案。它是一个开源的Ｊａｖａ项目，能够将ＳＱＬ转换成一系列可以在标准的ＨａｄｏｏｐＴａｓｋＴｒａｃｋｅｒｓ上运第５期何明，等：基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询引擎的日志挖掘及其应用 ·７１９·

·720 智能系统学报第12卷行的MapReduce任务。如图2中的Hive架构部分 Impala并没有使用MapReduce执行查询，而是使用所示，Hive通过一个metastore(本身就是一个数据了自己的执行守护进程操作本地磁盘文件。由于库)存储表模式、分区和位置以期提供像MySQL一没有MapReduce开销以及磁盘/O、查询语句编译样的功能。它支持大部分MySQL语法，同时使用相等一系列优化，Impala通常要比Hive具有更快的数似的database/able/view约定组织数据集。Hive内据访问性能[s]。Impala共享Hive的metastore,可直部机制是基于MapReduce,从而导致了计算过程中接与Hive管理的数据互操作。Spark[24]使用轻量级消耗大量的/0，降低了运行效率。Impala2]是由的线程作为执行器，减少了执行作业的开销，同时 Cloudera构建的一个针对Hadoop的开源的MPP 提高了调度的响应速度，如图2中的Spark部分所 (massively parallel processing)“交互式”SQL查询引示。Spark SQL是在Spark之上搭建的SQL查询引擎。Impala同样提供了一种SQL查询方法，如图2 擎，支持在Spark中使用Sql、HiveSql、Scala中的关中的Impala架构部分所示，与Hive不同的是，系型查询表达式。 Impala Hive SQL APP JDBC Statestore Catalog CLI JDBC/ODBC HUE ODBC Impalad Impalad Impalad Query Planner Query Planner Query Planner Thrift Server MetaStore Query Coordinator Query Coordinator Query Coordinator Query Executor Query Executor Query Executor Compiler Optimizer Executor Hadoop Spark Standalone Job Tracker Name Node Spark Context Spark Master 1 Data Node Data Node Data Node Spark Worker Spark Worker Spark Worker 'ask Tracker Task Tracker Task Tracker kecutor Backenc Executor Backend Executor Backend 图2 Hadoop、Hive、Impala与Spark执行结构图 Fig.2 Structure for implementation of Hadoop,Hive,Impala and Spark 2.3结构化数据存储与压缩多种格式的数据格式的支持。Text是原始的文本数目前，很多研究者提出了在Hadoop中优化结构据，通常为CSV或其他特定字符分隔。Hive的格式化数据存储的方法。He等[2]提出的RCFile格式旨支持更为全面，由于Impala和Hive共享metastore, 在提高数据导人和处理效率。它首先将数据水平因此本文平台实际应用中通常由Hive导入数据而分割为多个行组(ov-group),然后对每个组内的数后台使用Spark SQL查询。据垂直分割成列存储。列存储将数据表同一列的表1Hive、Impala和Spark SOL数据格式支持比较数据连续存放，当查询只涉及部分列时，可大幅减 Table 1 Data format comparison of Hive,Impala and 少所需读取的数据量。ORC(optimized RCFile)是对 Spark SQL RCFile的改进，解决其在数据类型和性能上的多个数据 Hive Impala Spark SQL 局限性，改善查询和空间利用效率。Parquet是格式查询插入查询插人查询插入 Hadoop生态圈中一种新型列式存储格式，灵感来自于2010年Google发表的Dremel论文[2]，它可以兼 Text 容Hadoop生态圈中大多数生态框架(Hadoop、Spark RCFile 等)，被多种查询引擎支持(Hive、Impala、Spark SQL、 ORC Dill等)，并且它与语言和平台无关的。表1比较了本文2.2节描述的3种查询引擎从HDFS上读取 Parquet

行的ＭａｐＲｅｄｕｃｅ任务。如图２中的Ｈｉｖｅ架构部分所示，Ｈｉｖｅ通过一个ｍｅｔａｓｔｏｒｅ（本身就是一个数据库）存储表模式、分区和位置以期提供像ＭｙＳＱＬ一样的功能。它支持大部分ＭｙＳＱＬ语法，同时使用相似的ｄａｔａｂａｓｅ／ｔａｂｌｅ／ｖｉｅｗ约定组织数据集。Ｈｉｖｅ内部机制是基于ＭａｐＲｅｄｕｃｅ，从而导致了计算过程中消耗大量的Ｉ／Ｏ，降低了运行效率。Ｉｍｐａｌａ［２２］是由Ｃｌｏｕｄｅｒａ构建的一个针对Ｈａｄｏｏｐ的开源的ＭＰＰ（ｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｐｒｏｃｅｓｓｉｎｇ）“交互式” ＳＱＬ查询引擎。Ｉｍｐａｌａ同样提供了一种ＳＱＬ查询方法，如图２中的Ｉｍｐａｌａ架构部分所示，与Ｈｉｖｅ不同的是，Ｉｍｐａｌａ并没有使用ＭａｐＲｅｄｕｃｅ执行查询，而是使用了自己的执行守护进程操作本地磁盘文件。由于没有ＭａｐＲｅｄｕｃｅ开销以及磁盘Ｉ／Ｏ、查询语句编译等一系列优化，Ｉｍｐａｌａ通常要比Ｈｉｖｅ具有更快的数据访问性能［２３］。Ｉｍｐａｌａ共享Ｈｉｖｅ的ｍｅｔａｓｔｏｒｅ，可直接与Ｈｉｖｅ管理的数据互操作。Ｓｐａｒｋ［２４］使用轻量级的线程作为执行器，减少了执行作业的开销，同时提高了调度的响应速度，如图２中的Ｓｐａｒｋ部分所示。ＳｐａｒｋＳＱＬ是在Ｓｐａｒｋ之上搭建的ＳＱＬ查询引擎，支持在Ｓｐａｒｋ中使用Ｓｑｌ、ＨｉｖｅＳｑｌ、Ｓｃａｌａ中的关系型查询表达式。图２Ｈａｄｏｏｐ、Ｈｉｖｅ、Ｉｍｐａｌａ与Ｓｐａｒｋ执行结构图Ｆｉｇ．２ＳｔｒｕｃｔｕｒｅｆｏｒｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＨａｄｏｏｐ，Ｈｉｖｅ，ＩｍｐａｌａａｎｄＳｐａｒｋ２．３结构化数据存储与压缩目前，很多研究者提出了在Ｈａｄｏｏｐ中优化结构化数据存储的方法。Ｈｅ等［２５］提出的ＲＣＦｉｌｅ格式旨在提高数据导入和处理效率。它首先将数据水平分割为多个行组（ｒｏｗ⁃ｇｒｏｕｐ），然后对每个组内的数据垂直分割成列存储。列存储将数据表同一列的数据连续存放，当查询只涉及部分列时，可大幅减少所需读取的数据量。ＯＲＣ（ｏｐｔｉｍｉｚｅｄＲＣＦｉｌｅ）是对ＲＣＦｉｌｅ的改进，解决其在数据类型和性能上的多个局限性，改善查询和空间利用效率。Ｐａｒｑｕｅｔ是Ｈａｄｏｏｐ生态圈中一种新型列式存储格式，灵感来自于２０１０年Ｇｏｏｇｌｅ发表的Ｄｒｅｍｅｌ论文［２６］，它可以兼容Ｈａｄｏｏｐ生态圈中大多数生态框架（Ｈａｄｏｏｐ、Ｓｐａｒｋ等），被多种查询引擎支持（Ｈｉｖｅ、Ｉｍｐａｌａ、ＳｐａｒｋＳＱＬ、Ｄｒｉｌｌ等），并且它与语言和平台无关的。表１比较了本文２．２节描述的３种查询引擎从ＨＤＦＳ上读取多种格式的数据格式的支持。Ｔｅｘｔ是原始的文本数据，通常为ＣＳＶ或其他特定字符分隔。Ｈｉｖｅ的格式支持更为全面，由于Ｉｍｐａｌａ和Ｈｉｖｅ共享ｍｅｔａｓｔｏｒｅ，因此本文平台实际应用中通常由Ｈｉｖｅ导入数据而后台使用ＳｐａｒｋＳＱＬ查询。表１Ｈｉｖｅ、Ｉｍｐａｌａ和ＳｐａｒｋＳＱＬ数据格式支持比较Ｔａｂｌｅ１ＤａｔａｆｏｒｍａｔｃｏｍｐａｒｉｓｏｎｏｆＨｉｖｅ，ＩｍｐａｌａａｎｄＳｐａｒｋＳＱＬ数据格式ＨｉｖｅＩｍｐａｌａＳｐａｒｋＳＱＬ查询插入查询插入查询插入Ｔｅｘｔ √ √ √ √ √ √ ＲＣＦｉｌｅ √ √ √ — — — ＯＲＣ √ √ — — — — Ｐａｒｑｕｅｔ √ √ √ √ √ √ ·７２０· 智能系统学报第１２卷

第5期何明，等：基于SQL-on-Hadoop查询引擎的日志挖掘及其应用 ·721. 数据压缩是另一种性能优化方法。压缩一方 DSparkConf conf new SparkConf(); 面节省存储空间，另一方面在相同磁盘/0速度可 ②创建上下文对象；读写更多记录。Hive、Impala和Spark SQL均支持直 3StreamingContext(conf,Interval); 接查询压缩的数据文件，常用压缩算法有Gzip/ZIib 4Map<E,T>Offsets=kafka.getOffset(); 和侧重于解压缩速度的Snappy。ORC格式本身已 ⑤获取kafka读取偏移量；内嵌轻量级的压缩机制。 ⑥DStream stream; 2.4结构化数据处理算法 7KafkaUtils.createDStream(input); RDD数据集包含对父RDD的一组依赖，这种依 ⑧Return streamo 赖描述了RDD之间的传承关系。RDD将操作分为 2)RDD数据处理两类：Transformation与Action。Transformation操作 ①stream.foreachRDD; 不执行运算，只有当Action操作时才触发运算。在 2new VoidFunction<RDD>>(); RDD的实现机制中，基于迭代器的接口实现原理使 3call(RDD<MessageAndMetadata>rdd); 得数据的访问更加高效，同时避免了大量中间结果 4HasOffsetRanges offrange rdd.rdd(); 对内存的消耗。Spark SQL包含了结构化数据和数 ⑤合并请求应答，并解析存储数据：据之上进行运算的更多信息，Spark SQL使用这些信 6rdd.mapPartitionsToPair; 息进行优化，使得结构化数据的操作更加高效和方 7 new FlumeKafkaFunction(); 便，基于Spark SQL的数据操作流程如下。 8foreachPartition(ProceFunction()); 算法1 SparkSQLonRdd(<input>,<context>:) 9kafka.setOffset(offrange); 输入Kafka输入数据流input,Spark上下文 ①保存kafka读取偏移量。 context; 3)ProceFunction数据后处理输出分布式集合dataframe。 DIterator<Tuple2<T,KafkaData>>iter; 1)DStream line:Kafka->DStream(input); 2while (iter.hasNext()); 2)获取Kaka流数据输入； 3KafkaData data iter.next()._2(); 3)SglContext sc new SqlContext(context); 4json =data.getData(); 4)DStream<Row>rdd=line.map; 5Record record =Object(json,class); 5)new Function: 6record.setCollect_time; 6)public Row call(T); 7data.getExtData(TIME)); 7)创建Row对象； 8Utils.save(item_topic,record); 8)List <StructField sf new;List <StructField> ⑨Return record.. (): 其中，RDD根据数据记录的key对结构进行分 9)Struct Fields.add CreateDataType (Column 区。分片数据采用迭代器Iterator流式访问，hasNext >)): 方法是由RDD lineage上各个Transformation携带的 10)重复步骤9)创建逻辑表结构：闭包函数复合而成，使得对象被序列化，通过网络 11)Struct Type st:DataTypes.CreateStructType 传输到其他节点上进行装载运算。Iterator每访问 (sf); 一个元素，就对该元素应用相应的复合函数，得到 12)DataFrame df 的结果再流式地存储。 13)sc->DataFrame(rdd,st); 3平台架构与集群环境部署 14)df.RegisterTable(<Table Name>); 15)DataFrame dataframe=sc.sql(<Sql Query>); 3.1平台架构与处理框架 16)Return dataframe. 本文基于Hadoop,构建证券交易应用服务器和算法2 RddProcessing(<input>) 网络设备海量日志采集、解析、存储与实时计算分输入Kafka输入数据流input 析平台，平台的核心架构如下。输出数据集对象record。 1)数据采集层：负责实时采集来自通达信、恒 1)数据采集与预处理生、核新的网上交易应用服务器全天24小时的客户

数据压缩是另一种性能优化方法。压缩一方面节省存储空间，另一方面在相同磁盘Ｉ／Ｏ速度可读写更多记录。Ｈｉｖｅ、Ｉｍｐａｌａ和ＳｐａｒｋＳＱＬ均支持直接查询压缩的数据文件，常用压缩算法有Ｇｚｉｐ／Ｚｌｉｂ和侧重于解压缩速度的Ｓｎａｐｐｙ。ＯＲＣ格式本身已内嵌轻量级的压缩机制。２．４结构化数据处理算法ＲＤＤ数据集包含对父ＲＤＤ的一组依赖，这种依赖描述了ＲＤＤ之间的传承关系。ＲＤＤ将操作分为两类：Ｔｒａｎｓｆｏｒｍａｔｉｏｎ与Ａｃｔｉｏｎ。Ｔｒａｎｓｆｏｒｍａｔｉｏｎ操作不执行运算，只有当Ａｃｔｉｏｎ操作时才触发运算。在ＲＤＤ的实现机制中，基于迭代器的接口实现原理使得数据的访问更加高效，同时避免了大量中间结果对内存的消耗。ＳｐａｒｋＳＱＬ包含了结构化数据和数据之上进行运算的更多信息，ＳｐａｒｋＳＱＬ使用这些信息进行优化，使得结构化数据的操作更加高效和方便，基于ＳｐａｒｋＳＱＬ的数据操作流程如下。算法１ＳｐａｒｋＳＱＬｏｎＲｄｄ（＜ｉｎｐｕｔ＞，＜ｃｏｎｔｅｘｔ＞）输入Ｋａｆｋａ输入数据流ｉｎｐｕｔ，Ｓｐａｒｋ上下文ｃｏｎｔｅｘｔ；输出分布式集合ｄａｔａｆｒａｍｅ。１）ＤＳｔｒｅａｍｌｉｎｅ：Ｋａｆｋａ－＞ＤＳｔｒｅａｍ（ｉｎｐｕｔ）；２）获取Ｋａｆｋａ流数据输入；３）ＳｑｌＣｏｎｔｅｘｔｓｃ＝ｎｅｗＳｑｌＣｏｎｔｅｘｔ（ｃｏｎｔｅｘｔ）；４）ＤＳｔｒｅａｍ＜Ｒｏｗ＞ｒｄｄ＝ｌｉｎｅ．ｍａｐ；５）ｎｅｗＦｕｎｃｔｉｏｎ；６）ｐｕｂｌｉｃＲｏｗｃａｌｌ（Ｔ）｛｝；７）创建Ｒｏｗ对象；８）Ｌｉｓｔ＜ＳｔｒｕｃｔＦｉｅｌｄ＞ｓｆ＝ｎｅｗ；Ｌｉｓｔ＜ＳｔｒｕｃｔＦｉｅｌｄ＞（）；９）ＳｔｒｕｃｔＦｉｅｌｄｓ．ａｄｄ（ＣｒｅａｔｅＤａｔａＴｙｐｅ（＜Ｃｏｌｕｍｎ＞））；１０）重复步骤９）创建逻辑表结构；１１）ＳｔｒｕｃｔＴｙｐｅｓｔ：ＤａｔａＴｙｐｅｓ．ＣｒｅａｔｅＳｔｒｕｃｔＴｙｐｅ（ｓｆ）；１２）ＤａｔａＦｒａｍｅｄｆ：１３）ｓｃ－＞ＤａｔａＦｒａｍｅ（ｒｄｄ，ｓｔ）；１４）ｄｆ．ＲｅｇｉｓｔｅｒＴａｂｌｅ（＜ＴａｂｌｅＮａｍｅ＞）；１５）ＤａｔａＦｒａｍｅｄａｔａｆｒａｍｅ＝ｓｃ．ｓｑｌ（＜ＳｑｌＱｕｅｒｙ＞）；１６）Ｒｅｔｕｒｎｄａｔａｆｒａｍｅ。算法２ＲｄｄＰｒｏｃｅｓｓｉｎｇ（＜ｉｎｐｕｔ＞）输入Ｋａｆｋａ输入数据流ｉｎｐｕｔ；输出数据集对象ｒｅｃｏｒｄ。１）数据采集与预处理 ①ＳｐａｒｋＣｏｎｆｃｏｎｆ＝ｎｅｗＳｐａｒｋＣｏｎｆ（）； ②创建上下文对象； ③ＳｔｒｅａｍｉｎｇＣｏｎｔｅｘｔ（ｃｏｎｆ，Ｉｎｔｅｒｖａｌ）； ④Ｍａｐ＜Ｅ，Ｔ＞Ｏｆｆｓｅｔｓ＝ｋａｆｋａ．ｇｅｔＯｆｆｓｅｔ（）； ⑤获取ｋａｆｋａ读取偏移量； ⑥ＤＳｔｒｅａｍｓｔｒｅａｍ； ⑦ＫａｆｋａＵｔｉｌｓ．ｃｒｅａｔｅＤＳｔｒｅａｍ（ｉｎｐｕｔ）； ⑧Ｒｅｔｕｒｎｓｔｒｅａｍ。２）ＲＤＤ数据处理 ①ｓｔｒｅａｍ．ｆｏｒｅａｃｈＲＤＤ； ②ｎｅｗＶｏｉｄＦｕｎｃｔｉｏｎ＜ＲＤＤ＞＞（）； ③ｃａｌｌ（ＲＤＤ＜ＭｅｓｓａｇｅＡｎｄＭｅｔａｄａｔａ＞ｒｄｄ）； ④ＨａｓＯｆｆｓｅｔＲａｎｇｅｓｏｆｆｒａｎｇｅ＝ｒｄｄ．ｒｄｄ（）； ⑤合并请求应答，并解析存储数据； ⑥ｒｄｄ．ｍａｐＰａｒｔｉｔｉｏｎｓＴｏＰａｉｒ； ⑦ ｎｅｗＦｌｕｍｅＫａｆｋａＦｕｎｃｔｉｏｎ（）； ⑧ｆｏｒｅａｃｈＰａｒｔｉｔｉｏｎ（ＰｒｏｃｅＦｕｎｃｔｉｏｎ（））； ⑨ｋａｆｋａ．ｓｅｔＯｆｆｓｅｔ（ｏｆｆｒａｎｇｅ）； ⑩保存ｋａｆｋａ读取偏移量。３）ＰｒｏｃｅＦｕｎｃｔｉｏｎ数据后处理 ①Ｉｔｅｒａｔｏｒ＜Ｔｕｐｌｅ２＜Ｔ，ＫａｆｋａＤａｔａ＞＞ｉｔｅｒ； ②ｗｈｉｌｅ（ｉｔｅｒ．ｈａｓＮｅｘｔ（））； ③ＫａｆｋａＤａｔａｄａｔａ＝ｉｔｅｒ．ｎｅｘｔ（）．＿２（）； ④ｊｓｏｎ＝ｄａｔａ．ｇｅｔＤａｔａ（）； ⑤Ｒｅｃｏｒｄｒｅｃｏｒｄ＝Ｏｂｊｅｃｔ（ｊｓｏｎ，ｃｌａｓｓ）； ⑥ｒｅｃｏｒｄ．ｓｅｔＣｏｌｌｅｃｔ＿ｔｉｍｅ； ⑦ｄａｔａ．ｇｅｔＥｘｔＤａｔａ（ＴＩＭＥ））； ⑧Ｕｔｉｌｓ．ｓａｖｅ（ｉｔｅｍ＿ｔｏｐｉｃ，ｒｅｃｏｒｄ）； ⑨Ｒｅｔｕｒｎｒｅｃｏｒｄ。其中，ＲＤＤ根据数据记录的ｋｅｙ对结构进行分区。分片数据采用迭代器Ｉｔｅｒａｔｏｒ流式访问，ｈａｓＮｅｘｔ方法是由ＲＤＤｌｉｎｅａｇｅ上各个Ｔｒａｎｓｆｏｒｍａｔｉｏｎ携带的闭包函数复合而成，使得对象被序列化，通过网络传输到其他节点上进行装载运算。Ｉｔｅｒａｔｏｒ每访问一个元素，就对该元素应用相应的复合函数，得到的结果再流式地存储。３平台架构与集群环境部署３．１平台架构与处理框架本文基于Ｈａｄｏｏｐ，构建证券交易应用服务器和网络设备海量日志采集、解析、存储与实时计算分析平台，平台的核心架构如下。１）数据采集层：负责实时采集来自通达信、恒生、核新的网上交易应用服务器全天２４小时的客户第５期何明，等：基于ＳＱＬ⁃ｏｎ⁃Ｈａｄｏｏｐ查询引擎的日志挖掘及其应用 ·７２１·

点击进入文档下载页（PDF格式）

共12页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录