提纲 31分布式文件系统 32HDFs简介 33HDFs相关概念 34HDFS体系结构 35HDFs存储原理 36HDFs数据读写过程 3.7HDFS编程实践 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 -概念、存储、处理、分析与应用》 (2021年1月第3版) SBN:978-7-11554405-6 厦门大学林子雨编著,人民邮电出版社 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata3 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 • 3.1 分布式文件系统 • 3.2 HDFS简介 • 3.3 HDFS相关概念 • 3.4 HDFS体系结构 • 3.5 HDFS存储原理 • 3.6 HDFS数据读写过程 • 3.7 HDFS编程实践 欢迎访问《大数据技术原理与应用》教材官方网站: http://dblab.xmu.edu.cn/post/bigdata3 本PPT是如下教材的配套讲义: 《大数据技术原理与应用 ——概念、存储、处理、分析与应用》 (2021年1月第3版) ISBN:978-7-115-54405-6 厦门大学 林子雨 编著,人民邮电出版社
3.1分布式文件系统 ·3.1.1 计算机集群结构 ·3.1.2 分布式文件系统的结构 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.1 分布式文件系统 • 3.1.1 计算机集群结构 • 3.1.2 分布式文件系统的结构
3.1.1计算机集群结构 ·分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算 机节点构成计算机集群 ·与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目 前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就 大大降低了硬件上的开销 交换机 节点ⅹ 网络互联 节点y 机架1 机架2 机架n 图3-1计算机集群的基本架构 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.1.1计算机集群结构 •分布式文件系统把文件分布存储到多个计算机节点上,成千上万的计算 机节点构成计算机集群 •与之前使用多个处理器和专用高级硬件的并行化处理装置不同的是,目 前的分布式文件系统所采用的计算机集群,都是由普通硬件构成的,这就 大大降低了硬件上的开销 …… 机架1 机架2 机架n 网络互联 Node x Node y Node x Node y Node x Node y 交换机 节点 x 节点 y 图3-1 计算机集群的基本架构
》312分布式文件系统的结构 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为 两类,一类叫“主节点”( Master node)或者也被称为“名称结点”( NameNode), 另一类叫“从节点”( Slave node)或者也被称为“数据节点”( DataNode) 客户端)访问请求 主节点 访问请求客户端 读 写 写 数据节点 数据节点 复制 文件块 机架1 机架n 图32大规模文件系统的整体结构 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.1.2分布式文件系统的结构 分布式文件系统在物理结构上是由计算机集群中的多个节点构成的,这些节点分为 两类,一类叫“主节点”(Master Node)或者也被称为“名称结点”(NameNode), 另一类叫“从节点”(Slave Node)或者也被称为“数据节点”(DataNode) 主节点 客户端 客户端 机架1 机架n 数据节点 数据节点 访问请求 访问请求 读 写 写 复制 文件块 图3-2 大规模文件系统的整体结构
32HDFs简介 总体而言,HDFS要实现以下目标: ●兼容廉价的硬件设备 ●流数据读写 大数据集 ●简单的文件模型 ●强大的跨平台兼容性 HDFS特殊的设计,在实现上述优良特性的同时,也使得自身具有一些应用 局限性,主要包括以下几个方面: ●不适合低延迟数据访问 ●无法高效存储大量小文件 ●不支持多用户写入及任意修改文件 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.2 HDFS简介 总体而言,HDFS要实现以下目标: ●兼容廉价的硬件设备 ●流数据读写 ●大数据集 ●简单的文件模型 ●强大的跨平台兼容性 HDFS特殊的设计,在实现上述优良特性的同时,也使得自身具有一些应用 局限性,主要包括以下几个方面: ●不适合低延迟数据访问 ●无法高效存储大量小文件 ●不支持多用户写入及任意修改文件