第6章 HBase 《大数据技术基础》
《大数据技术基础》 第6章 HBase
提纲 61概述 62 HBase访问接口 63 HBase数据模型 64 HBase的实现原理 65 HBase运行机制 66 HBase编程实践
提纲 • 6.1 概述 • 6.2 HBase访问接口 • 6.3 HBase数据模型 • 6.4 HBase的实现原理 • 6.5 HBase运行机制 • 6.6 HBase编程实践
6.1概述 6.1.1 从 Big table说起 6.1.2 HBase简介 6.1.3 HBase与传统关系数据库的对比分析
6.1 概述 • 6.1.1 从BigTable说起 • 6.1.2 HBase简介 • 6.1.3 HBase与传统关系数据库的对比分析
611从 Big table说起 Big Table是一个分布式存储系统 利用谷歌提岀的 MapReduce分布式并行计算模型来处理海量数据 使用谷歌分布式文件系统GFS作为底层数据存储 釆用 Chubby提供协同服务管理 可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点 ·谷歌的许多项目都存储在 Big Table中,包括搜索、地图、财经、打印、 社交网站 Orkut、视频共享网站 You tube和博客网站 Blogger等
6.1.1 从BigTable说起 •BigTable是一个分布式存储系统 •利用谷歌提出的MapReduce分布式并行计算模型来处理海量数据 •使用谷歌分布式文件系统GFS作为底层数据存储 •采用Chubby提供协同服务管理 •可以扩展到PB级别的数据和上千台机器,具备广泛应用性、可扩展性、 高性能和高可用性等特点 •谷歌的许多项目都存储在BigTable中,包括搜索、地图、财经、打印、 社交网站Orkut、视频共享网站YouTube和博客网站Blogger等
612 HBase简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌 Big Tab|e的 开源实现,主要用来存储非结构化和半结构化的松散数据。 HBase的目标是处理非常 庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和 数百万列元素组成的数据表 Hadoop生态系统 ETL工具 BI报表 RDBMS Pig Hive goop HBase HDFS (Hadoop Distributed File System) 图6-1 Hadoop生态系统中 HBase与其他部分的关系
6.1.2 HBase简介 HBase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable 的 开源实现,主要用来存储非结构化和半结构化的松散数据。HBase的目标是处理非常 庞大的表,可以通过水平扩展的方式,利用廉价计算机集群处理由超过10亿行数据和 数百万列元素组成的数据表 图6-1 Hadoop生态系统中HBase与其他部分的关系