当前位置：和泉文库 > 计算机 > 浏览文档

厦门大学：《大数据技术原理与应用》课程教学资源（PPT课件讲稿，2017）第4章分布式数据库HBase

• 4.1 概述 • 4.2 HBase访问接口 • 4.3 HBase数据模型 • 4.4 HBase的实现原理 • 4.5 HBase运行机制 • 4.6 HBase应用方案 • 4.7 HBase编程实践

文件格式：PPT，文件大小：4.81MB，售价：16.85元

文档详细内容（约74页）

4.12 HBase简介表4-1 HBase和 BigTable的底层技术对应关系 HBase Bigtable 文件存储系统 GFS HDFS 海量数据处理 Map reduce Hadoop Map reduce 协同服务管理 Chubby Zookeeper 《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2HBase简介表4-1 HBase和BigTable的底层技术对应关系 BigTable HBase 文件存储系统 GFS HDFS 海量数据处理 MapReduce Hadoop MapReduce 协同服务管理 Chubby Zookeeper

4.12 HBase简介关系数据库已经流行很多年,并且 Hadoop已经有了HDFS和 MapReduce, 为什么需要 HBase? Hadoop可以很好地解决大规模数据的离线批量处理问题,但是, 受限于 Hadoop MapReduce编程框架的髙延迟数据处理机制,使得 Hadoop无法满足大规模数据实时处理应用的需求 HDFS面向批量访问模式,不是随机访问模式传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题(分库分表也不能很好解决 ˆ传统关系数据库在数据结构变化时一般需要停机维护;空列浪费存储空间 -因此,业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/査询延迟的系统,例如,键值数据库、文档数据库和列族数据库(如 Big Table和 HBase等) HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.2HBase简介关系数据库已经流行很多年，并且Hadoop已经有了HDFS和MapReduce，为什么需要HBase? •Hadoop可以很好地解决大规模数据的离线批量处理问题，但是，受限于Hadoop MapReduce编程框架的高延迟数据处理机制，使得Hadoop无法满足大规模数据实时处理应用的需求 •HDFS面向批量访问模式，不是随机访问模式 •传统的通用关系型数据库无法应对在数据规模剧增时导致的系统扩展性和性能问题（分库分表也不能很好解决） •传统关系数据库在数据结构变化时一般需要停机维护；空列浪费存储空间 •因此，业界出现了一类面向半结构化数据存储和处理的高可扩展、低写入/查询延迟的系统，例如，键值数据库、文档数据库和列族数据库（如BigTable和HBase等） •HBase已经成功应用于互联网服务领域和传统行业的众多在线式数据分析处理系统中

●4.13 HBase与传统关系数据库的对比分析 HBase与传统的关系数据库的区别主要体现在以下几个方面: (1)数据类型:关系数据库采用关系模型,具有丰富的数据类型和存储方式, HBase则采用了更加简单的数据模型,它把数据存储为未经解释的字符串 (2)数据操作:关系数据库中包含了丰富的操作,其中会涉及复杂的多表连接。 HBase操作则不存在复杂的表与表之间的关系,只有简单的插入、查询、删除、清空等,因为 HBase在设计上就避免了复杂的表和表之间的关系 ·(3)存储模式:关系数据库是基于行模式存储的。 HBase是基于列存储的,每个列族都由几个文件保存,不同列族的文件是分离的《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.3HBase与传统关系数据库的对比分析 • HBase与传统的关系数据库的区别主要体现在以下几个方面： • （1）数据类型：关系数据库采用关系模型，具有丰富的数据类型和存储方式，HBase则采用了更加简单的数据模型，它把数据存储为未经解释的字符串 • （2）数据操作：关系数据库中包含了丰富的操作，其中会涉及复杂的多表连接。HBase操作则不存在复杂的表与表之间的关系，只有简单的插入、查询、删除、清空等，因为HBase在设计上就避免了复杂的表和表之间的关系 • （3）存储模式：关系数据库是基于行模式存储的。HBase是基于列存储的，每个列族都由几个文件保存，不同列族的文件是分离的

●4.13 HBase与传统关系数据库的对比分析 · HBase与传统的关系数据库的区别主要体现在以下几个方面: (4)数据索引:关系数据库通常可以针对不同列构建复杂的多个索引,以提高数据访问性能。 HBase只有一个索引的设计, HBase中的所有访问方法,或者通过行键访问,或者通过行键扫描,从而使得整个系统不会慢下来 (5)数据维护;在关系数据库中,更新操作会用最新的当前值去替换记录中原来的旧值,旧值被覆盖后就不会存在。而在 HBase中执行更新操作时,并不会删除数据旧的版本,而是生成一个新的版本,旧有的版本仍然葆 ·(6)可伸缩性:关系数据库很难实现横向扩展,纵向扩展的空间也比较有限。相反, HBase和 Big Table这些分布式数据库就是为了实现深话的水平拉开的,能彭轻易地通过在集群中增加或者减少硬《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.1.3HBase与传统关系数据库的对比分析 • HBase与传统的关系数据库的区别主要体现在以下几个方面： • （4）数据索引：关系数据库通常可以针对不同列构建复杂的多个索引，以提高数据访问性能。HBase只有一个索引——行键，通过巧妙的设计，HBase中的所有访问方法，或者通过行键访问，或者通过行键扫描，从而使得整个系统不会慢下来 • （5）数据维护：在关系数据库中，更新操作会用最新的当前值去替换记录中原来的旧值，旧值被覆盖后就不会存在。而在HBase中执行更新操作时，并不会删除数据旧的版本，而是生成一个新的版本，旧有的版本仍然保留 • （6）可伸缩性：关系数据库很难实现横向扩展，纵向扩展的空间也比较有限。相反，HBase和BigTable这些分布式数据库就是为了实现灵活的水平扩展而开发的，能够轻易地通过在集群中增加或者减少硬件数量来实现性能的伸缩

4.2 HBase访问接口表4-2 HBase访问接口类型特点场合 Native java api最常规和高效的访问方式适合 Hadoop MapReduce业并行批处理 HBase表数据 HBase shell HBase的命令行工具,最适合HB管理使用简单的接口 Thrift Gateway利用Th序列化技术,适合其他异构系统在线访问支持C++、PHP、 PythonHBase表数据等多种语言 REST Gateway 解除了语言限制支持REST风格的 Http Api访问 HBase Pig 使用 Pig latin流式编程语|适合做数据统计言来处理 HBase中的数据 Hiv 简单当需要以类似SQL语言方式来访问 HBase的时候《大数据技术原理与应用(第2版厦门大学计算机科学系林子雨 ziyulin@xmu. edu

《大数据技术原理与应用（第2版）》厦门大学计算机科学系林子雨 ziyulin@xmu.edu.cn 4.2 HBase访问接口表4-2 HBase访问接口类型特点场合 Native Java API 最常规和高效的访问方式适合Hadoop MapReduce作业并行批处理HBase表数据 HBase Shell HBase的命令行工具，最简单的接口适合HBase管理使用 Thrift Gateway 利用Thrift序列化技术，支持C++、PHP、Python 等多种语言适合其他异构系统在线访问 HBase表数据 REST Gateway 解除了语言限制支持REST风格的Http API访问 HBase Pig 使用Pig Latin流式编程语言来处理HBase中的数据适合做数据统计 Hive 简单当需要以类似SQL语言方式来访问HBase的时候

点击进入文档下载页（PPT格式）

共74页，可试读20页，点击继续阅读 ↓↓

您可能感兴趣的文档

上海交通大学：自然语言处理（PPT课件讲稿）Natural Language Processing
演化计算（PPT讲稿）Evolutionary Computation（EC）
《计算机组成原理》课程电子教案（PPT课件讲稿）第4章指令系统
电子工业出版社：《计算机网络》课程教学资源（第五版，PPT课件讲稿）第五章运输层
C++ Basics（PPT讲稿）
河南中医药大学（河南中医学院）：《计算机文化》课程教学资源（PPT课件讲稿）第五章运输层
南京航空航天大学：《数据结构》课程教学资源（PPT课件讲稿）第七章图（微软精品课程建设）
香港浸会大学：Programming Interest Group（PPT讲稿）Combinatorics & Number Theory
河南中医药大学（河南中医学院）：《计算机网络》课程教学资源（PPT课件讲稿）第二章物理层
《网络搜索和挖掘关键技术 Web Search and Mining》课程教学资源（PPT讲稿）Lecture 03 The term vocabulary and postings lists
A Unified Approach to Route Planning for Shared Mobility
同济大学：《软件测试》课程教学资源（PPT课件讲稿）第6章功能测试（朱少民）
《软件工程》课程教学资源（PPT讲稿）软件测试——系统测试
香港浸会大学：《Data Communications and Networking》课程教学资源（PPT讲稿）Chapter 9 High Speed LANs and Wireless LANs
Software Reliability & Testing（PPT讲稿）Overview of Software Reliability Engineering
《Java程序开发》课程教学资源（PPT课件讲稿）第11章 Struts2框架技术
北京航空航天大学：《数据挖掘——概念和技术（Data Mining - Concepts and Techniques）》课程教学资源（PPT课件讲稿）Chapter 02 Getting to Know Your Data
《计算机网络》课程教学资源（PPT课件讲稿）第三章数据链路层
《信息系统与数据库技术》课程教学资源（PPT课件讲稿）第4章 T-SQL与可编程对象
香港理工大学：数据仓库和数据挖掘（PPT讲稿）Data Warehousing & Data Mining
山西农业大学：大数据技术原理与应用（PPT讲稿）Development and application of bigdata technology
Peer-to-Peer Networks：Distributed Algorithms for P2P Distributed Hash Tables
中国科学技术大学：《计算机体系结构》课程教学资源（PPT课件讲稿）Chapter 01 量化设计与分析基础（主讲：周学海）
《计算机视觉》课程教学资源（PPT课件讲稿）边缘和线特征提取

点击购买下载（PPT）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录