Had0op项目及其结构 Hadoop有许多元素构成。最底部是 Hadoop分布式文件系统(HDFS), 它存储Hado集群中所有存储节点上的文件。HDFS的上一层是 Mapreduce引擎,该引擎由 JobTrackers和 TaskTrackers组成。下图描述了 Hadoop生态系统中的各层子系统。 ETL Tools BI Reporting 4 RDBMS ===1=-- 5 Lig (Data Flow L Hive(saL) Scoop a MapReduce (Job Scheduling/Execution System) HBase(Column DB) 9+N=o0c HDFS Hadoop Distributed File System) 《大数据技术基础》
《大数据技术基础》 Hadoop项目及其结构 Hadoop有许多元素构成。最底部是 Hadoop分布式文件系统(HDFS), 它存储 Hadoop集群中所有存储节点上的文件。HDFS的上一层是 MapReduce引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。下图描述了 Hadoop生态系统中的各层子系统
Had0p项目及其结构 Avro用于数据序列化的系统 ■HDFS是一种分布式文件系统,运行于大型商用机集群,HDFS为 HBase提 供了高可靠性的底层存储支持; HBase位于结构化存储层,是一个分布式的列存储数据库 Mapreduce是一种分布式数据处理模式和执行环境,为 HBase提供了高性 能的计算能力; Zookeeper是一个分布式的、高可用性的协调服务,提供分布式锁之类的 基本服务,用于构建分布式应用,为 HBase提供了稳定服务和 Failover机制 ■Hive是一个建立在 Hadoop基础之上的数据仓库,它提供了一些用于数据 整理、特殊査询和分析存储在 Hadoop文件中的数据集的工具; Pig是一种数据流语言和运行环境,用以检索非常大的数据集,大大简化了 Hadoop常见的工作任务; ■ Scoop为 HBase提供了方便的 RDBMS数据导入功能,使得传统数据库数据 向 HBase中迁移变的非常方便。 《大数据技术基础》
《大数据技术基础》 Hadoop项目及其结构 Avro用于数据序列化的系统; HDFS是一种分布式文件系统,运行于大型商用机集群,HDFS为HBase提 供了高可靠性的底层存储支持; HBase位于结构化存储层,是一个分布式的列存储数据库; MapReduce是一种分布式数据处理模式和执行环境,为HBase提供了高性 能的计算能力; Zookeeper是一个分布式的、高可用性的协调服务,提供分布式锁之类的 基本服务,用于构建分布式应用,为HBase提供了稳定服务和failover机制; Hive是一个建立在Hadoop 基础之上的数据仓库,它提供了一些用于数据 整理、特殊查询和分析存储在Hadoop 文件中的数据集的工具; Pig是一种数据流语言和运行环境,用以检索非常大的数据集,大大简化了 Hadoop常见的工作任务; Sqoop为HBase提供了方便的RDBMS数据导入功能,使得传统数据库数据 向HBase中迁移变的非常方便
Hadoop的体系结构 HDFS和 MapReduce是 Hadoop的两大核心。而整个 Hadoop的体系结构 主要是通过HDFS来实现对分布式存储的底层支持的,并且它会通过 Mapreduce来实现对分布式并行任务处理的程序支持 ETL Tools BI Reporting 4 RDBMS ===1=-- 5 Lig (Data Flow L Hive(saL) Scoop a MapReduce (Job Scheduling/Execution System) C HBase(Column DB) HDFS Hadoop Distributed File System) 《大数据技术基础》
《大数据技术基础》 Hadoop的体系结构 HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构 主要是通过HDFS 来实现对分布式存储的底层支持的,并且它会通过 MapReduce 来实现对分布式并行任务处理的程序支持
HDFS的体系结构 个HDFS集群是由一个 NameNode和若干个 Datanode组成的 其中 NameNode作为主服务器,管理文件系统的命名空间和客户端对文 件的访问操作;集群中的 DataNode管理存储的数据。HDFS允许用, 以文件的形式存储数据。从内部来看,文件被分成若千个数据块,而且 这若干个数据块存放在一组 DataNode上。下图给出了HDFS的体系结 构 NameNode 客户端 数据请求 块信息 Datanode Data Node 备份 DataNode Data Node Data Node 机架2 机架1 《大数据技术基础》
《大数据技术基础》 HDFS的体系结构 一个HDFS集群是由一个NameNode和若干个DataNode组成的。 其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文 件的访问操作;集群中的DataNode管理存储的数据。HDFS 允许用户 以文件的形式存储数据。从内部来看,文件被分成若干个数据块,而且 这若干个数据块存放在一组DataNode上。下图给出了HDFS 的体系结 构
MapReduce的体系结构 经松 MapReduce是一种并行编程模式,这种模式使得软件开发者可以 编写出分布式并行程序 在 Hadoop的体系结构中, Mapreduce是一个简单易用的软件框架 ,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种 高容错的方式并行处理大量的数据集,实现 Hadoop的并行任务处理功 能 Mapreduce框架是由一个单独运行在主节点上的 Job Tracker和运 行在每个集群从节点上的 Task Tracker共同组成的。主节点负责调度构 成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控 它们的执行情况,并且重新执行之前失败的任务;从节点仅负责由主节 点指派的任务。当一个Job被提交时, JobTracker接收到提交作业和配 置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控 TaskTracker的执行。 《大数据技术基础》
《大数据技术基础》 MapReduce的体系结构 MapReduce是一种并行编程模式,这种模式使得软件开发者可以 轻松地编写出分布式并行程序。 在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架 ,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种 高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功 能。 MapReduce框架是由一个单独运行在主节点上的JobTracker 和运 行在每个集群从节点上的TaskTracker共同组成的。主节点负责调度构 成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控 它们的执行情况,并且重新执行之前失败的任务;从节点仅负责由主节 点指派的任务。当一个Job 被提交时,JobTracker接收到提交作业和配 置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控 TaskTracker的执行