342HDFS命名空间管理 HDFS的命名空间包含目录、文件和块 在HDFS1.0体系结构中,在整个HDFS集群中只有一个命名空间,并 且只有唯一一个名称节点,该节点负责对这个命名空间进行管理 ·HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通 文件系统一样,创建、删除目录和文件,在目录间转移文件,重命 名文件等 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.4.2HDFS命名空间管理 • HDFS的命名空间包含目录、文件和块 • 在HDFS1.0体系结构中,在整个HDFS集群中只有一个命名空间,并 且只有唯一一个名称节点,该节点负责对这个命名空间进行管理 • HDFS使用的是传统的分级文件体系,因此,用户可以像使用普通 文件系统一样,创建、删除目录和文件,在目录间转移文件,重命 名文件等
343通信协议 ·HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要 通过网络进行传输 所有的HDFS通信协议都是构建在TCP/IP协议基础之上的 ·客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使 用客户端协议与名称节点进行交互 名称节点和数据节点之间则使用数据节点协议进行交互 客户端与数据节点的交互是通过RPC( Remote Procedure cal1)来 实现的。在设计上,名称节点不会主动发起RPC,而是响应来自客户 端和数据节点的RPC请求 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.4.3通信协议 • HDFS是一个部署在集群上的分布式文件系统,因此,很多数据需要 通过网络进行传输 • 所有的HDFS通信协议都是构建在TCP/IP协议基础之上的 • 客户端通过一个可配置的端口向名称节点主动发起TCP连接,并使 用客户端协议与名称节点进行交互 • 名称节点和数据节点之间则使用数据节点协议进行交互 • 客户端与数据节点的交互是通过RPC(Remote Procedure Call)来 实现的。在设计上,名称节点不会主动发起RPC,而是响应来自客户 端和数据节点的RPC请求
344客户端 客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了 客户端 HDFS客户端是一个库,暴露了HDFS文件系统接口,这些接口隐 藏了HDFS实现中的大部分复杂性 严格来说,客户端并不算是HDFS的一部分 客户端可以支持打开、读取、写入等常见的操作,并且提供了 类似Shel1的命令行方式来访问HDFS中的数据 此外,HDFS也提供了 Java APi,作为应用程序访问文件系统的 客户端编程接口 大数据技术原理与应用(第3版 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.4.4客户端 • 客户端是用户操作HDFS最常用的方式,HDFS在部署时都提供了 客户端 • HDFS客户端是一个库,暴露了HDFS文件系统接口,这些接口隐 藏了HDFS实现中的大部分复杂性 • 严格来说,客户端并不算是HDFS的一部分 • 客户端可以支持打开、读取、写入等常见的操作,并且提供了 类似Shell的命令行方式来访问HDFS中的数据 • 此外,HDFS也提供了Java API,作为应用程序访问文件系统的 客户端编程接口
345HDFS体系结构的局限性 HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但 也带来了一些明显的局限性,具体如下: (1)命名空间的限制:名称节点是保存在内存中的,因此,名称节 点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制。 (2)性能的瓶颈:整个分布式文件系统的吞吐量,受限于单个名称 节点的吞吐量。 (3)隔离问题:由于集群中只有一个名称节点,只有一个命名空间, 因此,无法对不同应用程序进行隔离。 (4)集群的可用性:一旦这个唯一的名称节点发生故障,会导致整 个集群变得不可用。 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.4.5HDFS体系结构的局限性 HDFS只设置唯一一个名称节点,这样做虽然大大简化了系统设计,但 也带来了一些明显的局限性,具体如下: (1)命名空间的限制:名称节点是保存在内存中的,因此,名称节 点能够容纳的对象(文件、块)的个数会受到内存空间大小的限制。 (2)性能的瓶颈:整个分布式文件系统的吞吐量,受限于单个名称 节点的吞吐量。 (3)隔离问题:由于集群中只有一个名称节点,只有一个命名空间, 因此,无法对不同应用程序进行隔离。 (4)集群的可用性:一旦这个唯一的名称节点发生故障,会导致整 个集群变得不可用
3.5HDFS存储原理 ·3.5.1 冗余数据保存 ·3.5.2 数据存取策略 3.53 数据错误与恢复 大数据技术原理与应用(第3 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据技术原理与应用(第3版)》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 3.5 HDFS存储原理 • 3.5.1 冗余数据保存 • 3.5.2 数据存取策略 • 3.5.3 数据错误与恢复