当前位置：和泉文库 > 电气与自动化 > 浏览文档

智能系统：hadoop副本放置策略

文件格式：PDF，文件大小：1.08MB，售价：3.12元

文档详细内容（约8页）

第8卷第6期智能系统学报 Vol.8 No.6 2013年12月 CAAI Transactions on Intelligent Systems Dec.2013 D0:10.3969/j.issn.1673-4785.201210036 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20131030.1508.003.html Hadoop副本放置策略邵秀丽，王亚光1，李云龙，刘一伟2 (1.南开大学信息技术科学学院，天津300071；2.北京大学数学科学学院，北京100871) 摘要：分布式文件系统(Hs)采用随机的副本放置策略使得系统在运行一段时间后会出现数据分布不均衡的情况，从而降低数据的可靠性和读取速率.为解决Hds默认副本放置策略存在的问题，对Hs副本放置策略进行改进：在副本放置选择时优先考虑存储使用率低的节点模拟实验一测试了机架数目对于算法的影响，结果显示改进后的副本放置策略中，机架数目对集群的均衡性影响很小，显示出较好的均衡性模拟实验二测试了随着写入数据的增加，比较了使用改进前后的副本放置策略集群中节点使用率的标准差，证实了改进后的副本放置策略在存储均衡方面较原放置策略有着更好的表现关键词：云存储：Hds:副本放置：存储均衡：存储节点中图分类号：TP399文献标志码：A文章编号：1673-4785(2013)06-0489-08 中文引用格式：邵秀丽，王亚光，李云龙，等.Hado0p副本放置策略[J].智能系统学报，2013,8(6)：489-496. 英文引用格式：SHAO Xiuli,WANG Yaguang,LI Yunlong,etal.Research on the replica placement strategy of Hadoop[J].CAAL Transactions on Intelligent Systems,2013,8(6):489-496. Research on the replica placement strategy of Hadoop SHAO Xiuli',WANG Yaguang',LI Yunlong',LIU Yiwei? (1.College of Information Technology Science,Nankai University,Tianjin 300071,China;2.College of Mathematical Sciences,Pe- king University,Beijing 100871,China) Abstract:Hadoop distributed file system applies the random replica placement strategy,which causes unbalanced data distribution after the system has operated for a while,resulting in lowering the data reliability and reading speed.In order to eliminate the defect of the replica placement strategy defaulted by the Hdfs,the strategy was im- proved.When the placement location of a replica is selected,a node with a low storage and use rate will be consid- ered as a priority.The first simulation experiment tested the effects caused by the number of racks on the algorithm. The results show that,for the improved replica placement strategy,the number of racks has little impact on the e- quilibrium of the group,the equilibrium is excellent.The second simulation experiment compared the standard difference of the node usage rates between the replica placement strategy groups before and after and found an im- provement following the increase of the data input.The results verify that the improved replica placement strategy has better performance with respect to storage equilibrium. Keywords:cloud storage;Hdfs;replica placement;storage equilibrium;storage node 为提高系统的可靠性，解决不可预知的灾难以布式副本技术来存储数据. 及硬件错误对系统造成的损失，云存储系统采用分哥伦比亚大学的K等提出了一种自稳定、全分布、异步可升级的算法来放置副本，算法的目标是收稿日期：2012-10-26.网络出版日期：2013-10-30 在网络中的结点上放置数据对象的多个副本，从网络基金项目：天津市滨海新区科技项目资助项目(12 ZCDZGX46700、 13ZCZDGX02500) 中的任意一个结点出发都能够通过最短的路径访问通信作者：邵秀丽.E-mail:shaoxl@nankai.edu.cm 到任意的副本；加州大学伯克利分校的Chen等)开

第８卷第６期智能系统学报Ｖｏｌ．８ №．６２０１３年１２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＤｅｃ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１２１００３６网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３１０３０．１５０８．００３．ｈｔｍｌＨａｄｏｏｐ副本放置策略邵秀丽１，王亚光１，李云龙１，刘一伟２（１．南开大学信息技术科学学院，天津３０００７１；２．北京大学数学科学学院，北京１００８７１）摘要：分布式文件系统（Ｈｄｆｓ）采用随机的副本放置策略使得系统在运行一段时间后会出现数据分布不均衡的情况，从而降低数据的可靠性和读取速率．为解决Ｈｄｆｓ默认副本放置策略存在的问题，对Ｈｄｆｓ副本放置策略进行改进：在副本放置选择时优先考虑存储使用率低的节点．模拟实验一测试了机架数目对于算法的影响，结果显示改进后的副本放置策略中，机架数目对集群的均衡性影响很小，显示出较好的均衡性．模拟实验二测试了随着写入数据的增加，比较了使用改进前后的副本放置策略集群中节点使用率的标准差，证实了改进后的副本放置策略在存储均衡方面较原放置策略有着更好的表现．关键词：云存储；Ｈｄｆｓ；副本放置；存储均衡；存储节点中图分类号：ＴＰ３９９文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０６⁃０４８９⁃０８中文引用格式：邵秀丽，王亚光，李云龙，等．Ｈａｄｏｏｐ副本放置策略［Ｊ］．智能系统学报，２０１３，８（６）：４８９⁃４９６．英文引用格式：ＳＨＡＯＸｉｕｌｉ，ＷＡＮＧＹａｇｕａｎｇ，ＬＩＹｕｎｌｏｎｇ，ｅｔａｌ．ＲｅｓｅａｒｃｈｏｎｔｈｅｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｏｆＨａｄｏｏｐ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（６）：４８９⁃４９６．ＲｅｓｅａｒｃｈｏｎｔｈｅｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｏｆＨａｄｏｏｐＳＨＡＯＸｉｕｌｉ１，ＷＡＮＧＹａｇｕａｎｇ１，ＬＩＹｕｎｌｏｎｇ１，ＬＩＵＹｉｗｅｉ２（１．ＣｏｌｌｅｇｅｏｆＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙＳｃｉｅｎｃｅ，ＮａｎｋａｉＵｎｉｖｅｒｓｉｔｙ，Ｔｉａｎｊｉｎ３０００７１，Ｃｈｉｎａ；２．ＣｏｌｌｅｇｅｏｆＭａｔｈｅｍａｔｉｃａｌＳｃｉｅｎｃｅｓ，Ｐｅ⁃ ｋｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００８７１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｈａｄｏｏｐｄｉｓｔｒｉｂｕｔｅｄｆｉｌｅｓｙｓｔｅｍａｐｐｌｉｅｓｔｈｅｒａｎｄｏｍｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙ，ｗｈｉｃｈｃａｕｓｅｓｕｎｂａｌａｎｃｅｄｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎａｆｔｅｒｔｈｅｓｙｓｔｅｍｈａｓｏｐｅｒａｔｅｄｆｏｒａｗｈｉｌｅ，ｒｅｓｕｌｔｉｎｇｉｎｌｏｗｅｒｉｎｇｔｈｅｄａｔａｒｅｌｉａｂｉｌｉｔｙａｎｄｒｅａｄｉｎｇｓｐｅｅｄ．ＩｎｏｒｄｅｒｔｏｅｌｉｍｉｎａｔｅｔｈｅｄｅｆｅｃｔｏｆｔｈｅｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｄｅｆａｕｌｔｅｄｂｙｔｈｅＨｄｆｓ，ｔｈｅｓｔｒａｔｅｇｙｗａｓｉｍ⁃ ｐｒｏｖｅｄ．Ｗｈｅｎｔｈｅｐｌａｃｅｍｅｎｔｌｏｃａｔｉｏｎｏｆａｒｅｐｌｉｃａｉｓｓｅｌｅｃｔｅｄ，ａｎｏｄｅｗｉｔｈａｌｏｗｓｔｏｒａｇｅａｎｄｕｓｅｒａｔｅｗｉｌｌｂｅｃｏｎｓｉｄ⁃ ｅｒｅｄａｓａｐｒｉｏｒｉｔｙ．Ｔｈｅｆｉｒｓｔｓｉｍｕｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｔｅｓｔｅｄｔｈｅｅｆｆｅｃｔｓｃａｕｓｅｄｂｙｔｈｅｎｕｍｂｅｒｏｆｒａｃｋｓｏｎｔｈｅａｌｇｏｒｉｔｈｍ．Ｔｈｅｒｅｓｕｌｔｓｓｈｏｗｔｈａｔ，ｆｏｒｔｈｅｉｍｐｒｏｖｅｄｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙ，ｔｈｅｎｕｍｂｅｒｏｆｒａｃｋｓｈａｓｌｉｔｔｌｅｉｍｐａｃｔｏｎｔｈｅｅ⁃ ｑｕｉｌｉｂｒｉｕｍｏｆｔｈｅｇｒｏｕｐ，ｔｈｅｅｑｕｉｌｉｂｒｉｕｍｉｓｅｘｃｅｌｌｅｎｔ．Ｔｈｅｓｅｃｏｎｄｓｉｍｕｌａｔｉｏｎｅｘｐｅｒｉｍｅｎｔｃｏｍｐａｒｅｄｔｈｅｓｔａｎｄａｒｄｄｉｆｆｅｒｅｎｃｅｏｆｔｈｅｎｏｄｅｕｓａｇｅｒａｔｅｓｂｅｔｗｅｅｎｔｈｅｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｇｒｏｕｐｓｂｅｆｏｒｅａｎｄａｆｔｅｒａｎｄｆｏｕｎｄａｎｉｍ⁃ ｐｒｏｖｅｍｅｎｔｆｏｌｌｏｗｉｎｇｔｈｅｉｎｃｒｅａｓｅｏｆｔｈｅｄａｔａｉｎｐｕｔ．Ｔｈｅｒｅｓｕｌｔｓｖｅｒｉｆｙｔｈａｔｔｈｅｉｍｐｒｏｖｅｄｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｈａｓｂｅｔｔｅｒｐｅｒｆｏｒｍａｎｃｅｗｉｔｈｒｅｓｐｅｃｔｔｏｓｔｏｒａｇｅｅｑｕｉｌｉｂｒｉｕｍ．Ｋｅｙｗｏｒｄｓ：ｃｌｏｕｄｓｔｏｒａｇｅ；Ｈｄｆｓ；ｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔ；ｓｔｏｒａｇｅｅｑｕｉｌｉｂｒｉｕｍ；ｓｔｏｒａｇｅｎｏｄｅ收稿日期：２０１２⁃１０⁃２６．网络出版日期：２０１３⁃１０⁃３０．基金项目：天津市滨海新区科技项目资助项目（１２ＺＣＤＺＧＸ４６７００、１３ＺＣＺＤＧＸ０２５００）．通信作者：邵秀丽．Ｅ⁃ｍａｉｌ：ｓｈａｏｘｌ＠ｎａｎｋａｉ．ｅｄｕ．ｃｎ．为提高系统的可靠性，解决不可预知的灾难以及硬件错误对系统造成的损失，云存储系统采用分布式副本技术来存储数据．哥伦比亚大学的Ｋｏ等［１］提出了一种自稳定、全分布、异步可升级的算法来放置副本，算法的目标是在网络中的结点上放置数据对象的多个副本，从网络中的任意一个结点出发都能够通过最短的路径访问到任意的副本；加州大学伯克利分校的Ｃｈｅｎ等［２］开

·490 智能系统学报第8卷发设计了一个动态、高效及可升级的内容分发网络 3)随机函数：Hdfs的NetworkTopolog罗类中有保 SCAN sealable content aeeess network )SCAN 存所有节点信息的ArrayList..Hdfs在选择副本放置 Testry进行路由和定位，使用沿路缓存算法进行副本位置时，调用随机选择函数chooseRandom,从n中随放置：德克萨斯大学的MadhukarR等提出了一种协作机选择一个数对应ArrayList中的节点就被选中为的缓存放置算法[3)，即给定一组协作的缓存、缓存之副本存储的节点.该函数是只有2个参数的重载函间的网络距离以及从每个缓存到每个对象的访问频数，第1个参数是选择节点的范围，它可以是某个机率的预测，决定在哪里放置对象，从而使平均访问开架，默认为整个集群：第2个参数是不能选择节点的销最小化；Karg©r等4提出了能适应节点数量的动态范围，默认为空，可以设置为某个机架变化的一致性哈希算法，但它只适用于存储节点同构 4)Hds在进行副本选择过程中，有可能出现参的情况，当节点的存储容量和处理能力有差异时，数数不合格或内存异常等现象，一旦出现运行异常，据将不能够均匀地分布到系统当中. chooseRandom函数就会把异常信息返回客户端该云存储系统的典型代表是Hdfs[s),它需将每个函数的调用者存储数据块的副本放置在多个机架的多个节点上， 2Hdfs默认副本放置策略存储数据块的副本放置策略将直接影响数据存储的均衡性以及访问数据块的速度.Hdfs系统采用随机如图1所示，Hds的副本放置策略是将每一个选择节点的副本放置策略，该策略在系统运行一段数据项的副本放置在多个节点上.在客户端运行的时间后会造成数据分布不均衡的问题，降低数据的节点上放置第1个副本，在客户端的远程机架上随可靠性和读取性能.因此，本文提出了基于节点使用机选择一个节点放置第2个副本，在第2个副本所率选择存储节点的Hds副本放置策略的改进算法，在机架上随机选择一个节点放置第3个副本引入了客户端存储阈值，允许副本在放置过程中穿越多个机架，以实现各节点数据存储的相对均衡，实文件写入验验证了改进策略的有效性云存储客户端客户端2…客户端系统 1 副本放置策路的相关概念写入访问层分布式文件系统内容为研究Hdfs的副本放置策略，先介绍相关文件文件2…文件文件与数据概念如下：应用接口层分块块关联表 I)获取集群信息：Hdf的NetworkTopolog罗类实、分块存储基础现对其拓扑结构的操纵，该类中包含添加、删除和获管理层块块2 块风取节点信息等函数.比如，Hdfs通过调用NetworkTo- 数据块与节存储：副本放置策略点关联表 pology类的chooseRandom来随机获取一个节点的存储层存储介质信息，通过调用getNumOfLeaves来获取所有节点的 pc2 pen 数目图1副本放置策略 2)集群拓扑（机架与节点）：将Hdfs部署在多 Fig.1 The placement policy of duplication 台服务器上就形成了一个Hds的集群.如树状拓扑结构的Hds集群，树根是一个大型交换机，交换机分布式文件系统[6)的副本放置策略确定每一之下可以是多个二级交换机，可以把每一个二级交个数据块应该存放的位置，数据块与节点之间的关换机设置为一个机架，每个机架之下连接多个节点联被记录在数据块与节点关联表中，数据块最终会 Hds管理员可编写脚本文件来配置每个节点属被存放在存储层的各个节点上。于哪一个机架在进行机架配置时，应将相同交换机 2.1Hdfs默认副本放置策略的流程下的节点设置为同一个机架就可实现合理的配置： Hds的分块存储文件在选择副本放置位置时，一般把组成Hdfs集群的每一个服务器称为一综合考虑了数据存储的可靠性、数据读写的带宽和负个节点，对文件读写的客户端而言，其所在节点称为载均衡等因素如将一个数据块所有副本都存储在一本地节点，其他节点为远程节点就某一具体节点而个节点上，则存储过程中所占用的带宽是最小的，因言，称该节点所在的机架为本地机架，其他机架为远为这可以减少数据块的网络传输，但该方案不提供有程机架效的冗余备份，一旦该节点发生故障，则该节点中存

发设计了一个动态、高效及可升级的内容分发网络ＳＣＡＮ（ｓｅａｌａｂｌｅｃｏｎｔｅｎｔａｅｅｅｓｓｎｅｔｗｏｒｋ）．ＳＣＡＮ采用Ｔｅｓｔｒｙ进行路由和定位，使用沿路缓存算法进行副本放置；德克萨斯大学的ＭａｄｈｕｋａｒＲ等提出了一种协作的缓存放置算法［３］，即给定一组协作的缓存、缓存之间的网络距离以及从每个缓存到每个对象的访问频率的预测，决定在哪里放置对象，从而使平均访问开销最小化；Ｋａｒｇｅｒ等［４］提出了能适应节点数量的动态变化的一致性哈希算法，但它只适用于存储节点同构的情况，当节点的存储容量和处理能力有差异时，数据将不能够均匀地分布到系统当中．云存储系统的典型代表是Ｈｄｆｓ［５］，它需将每个存储数据块的副本放置在多个机架的多个节点上，存储数据块的副本放置策略将直接影响数据存储的均衡性以及访问数据块的速度．Ｈｄｆｓ系统采用随机选择节点的副本放置策略，该策略在系统运行一段时间后会造成数据分布不均衡的问题，降低数据的可靠性和读取性能．因此，本文提出了基于节点使用率选择存储节点的Ｈｄｆｓ副本放置策略的改进算法，引入了客户端存储阈值，允许副本在放置过程中穿越多个机架，以实现各节点数据存储的相对均衡，实验验证了改进策略的有效性．１副本放置策略的相关概念内容为研究Ｈｄｆｓ的副本放置策略，先介绍相关概念如下：１）获取集群信息：Ｈｄｆｓ的ＮｅｔｗｏｒｋＴｏｐｏｌｏｇｙ类实现对其拓扑结构的操纵，该类中包含添加、删除和获取节点信息等函数．比如，Ｈｄｆｓ通过调用ＮｅｔｗｏｒｋＴｏ⁃ ｐｏｌｏｇｙ类的ｃｈｏｏｓｅＲａｎｄｏｍ来随机获取一个节点的信息，通过调用ｇｅｔＮｕｍＯｆＬｅａｖｅｓ来获取所有节点的数目．２）集群拓扑（机架与节点）：将Ｈｄｆｓ部署在多台服务器上就形成了一个Ｈｄｆｓ的集群．如树状拓扑结构的Ｈｄｆｓ集群，树根是一个大型交换机，交换机之下可以是多个二级交换机，可以把每一个二级交换机设置为一个机架，每个机架之下连接多个节点．Ｈｄｆｓ管理员可编写脚本文件来配置每个节点属于哪一个机架．在进行机架配置时，应将相同交换机下的节点设置为同一个机架就可实现合理的配置．一般把组成Ｈｄｆｓ集群的每一个服务器称为一个节点，对文件读写的客户端而言，其所在节点称为本地节点，其他节点为远程节点．就某一具体节点而言，称该节点所在的机架为本地机架，其他机架为远程机架．３）随机函数：Ｈｄｆｓ的ＮｅｔｗｏｒｋＴｏｐｏｌｏｇｙ类中有保存所有节点信息的ＡｒｒａｙＬｉｓｔ．Ｈｄｆｓ在选择副本放置位置时，调用随机选择函数ｃｈｏｏｓｅＲａｎｄｏｍ，从ｎ中随机选择一个数对应ＡｒｒａｙＬｉｓｔ中的节点就被选中为副本存储的节点．该函数是只有２个参数的重载函数，第１个参数是选择节点的范围，它可以是某个机架，默认为整个集群；第２个参数是不能选择节点的范围，默认为空，可以设置为某个机架．４）Ｈｄｆｓ在进行副本选择过程中，有可能出现参数不合格或内存异常等现象，一旦出现运行异常，ｃｈｏｏｓｅＲａｎｄｏｍ函数就会把异常信息返回客户端该函数的调用者．２Ｈｄｆｓ默认副本放置策略如图１所示，Ｈｄｆｓ的副本放置策略是将每一个数据项的副本放置在多个节点上．在客户端运行的节点上放置第１个副本，在客户端的远程机架上随机选择一个节点放置第２个副本，在第２个副本所在机架上随机选择一个节点放置第３个副本．图１副本放置策略Ｆｉｇ．１Ｔｈｅｐｌａｃｅｍｅｎｔｐｏｌｉｃｙｏｆｄｕｐｌｉｃａｔｉｏｎ分布式文件系统［６⁃７］的副本放置策略确定每一个数据块应该存放的位置，数据块与节点之间的关联被记录在数据块与节点关联表中，数据块最终会被存放在存储层的各个节点上．２．１Ｈｄｆｓ默认副本放置策略的流程Ｈｄｆｓ的分块存储文件在选择副本放置位置时，综合考虑了数据存储的可靠性、数据读写的带宽和负载均衡等因素．如将一个数据块所有副本都存储在一个节点上，则存储过程中所占用的带宽是最小的，因为这可以减少数据块的网络传输，但该方案不提供有效的冗余备份，一旦该节点发生故障，则该节点中存 ·４９０· 智能系统学报第８卷

第6期邵秀丽，等：Hadoop副本放置策略 ·491. 储的这一数据块及其所有副本都会丢失.因此，Hds 的副本放置策略流程，其中标注了本文所实现的对副对任意一数据块不在同一个节点上放置多个副本，而本放置策略的改进工作，Hfs默认的副本放置策略选是将副本尽可能分散存放[s.图2给出了Hfs默认择3个节点，可以选择多个节点放置副本改进策略：需要考虑客户端的负载情况客户端负载过 ReplicationTargetChooser 大则不在客户端放置副本类的chooseTarget函数来进使用Replication TargetChooser 类的chooseLocalRack在本地行节点的选择 Replication TargetChooser 机架上选择1个节点类的chooseLocalNode函数尝试选择客户端节点作为第使用NetworkTopology类的 1个节点 contains函数判断客户端是成功否是集群中的1个DataNode 成功 Replication TargetChooser 改进策略：类的chooseRandom函数在成功返给Replication TargetChooser 类的chooseTarget函数选择的不进行随机选择，选则集群中随机选择1个节点作为节点使用率最低的节点结果之前的掬作都成功使用Replication TargetChooser ReplicationTargetChooser 之前的类的chooseRandom函数在本失败类的chooseRemoteRack函数开始选择第在远程机架上随机选择1个节 2个节点操作产生异常地机架上选择1个节点点成功返回给Replication TargetChooser 之前的操作出现异常返回客户端类的chooseTarget函数选择的节节点结束点之前的操作都成功之前的操作 HReplicationTargetChooserchoose 出现异常开始选择第3个节点类的choose RemoteRack在远程机返回最终所选架上选择1个节点的所有节点使用NetworkTopology类的 ReplicationTargetChooserchoose isOnSameRack判断前2个类的chooseLocalRack在第2个节点使用Replication Target 节点是否在同1个机架上 N 的本地机架上选择]个节点 Chooser类的choose 之前的操作 Random函数在集群中都成功随机选择剩余的节点改进策路：不限制具体机架，改进策略：不限制机架的个数开始选择剩不使用随机函数，不使用随机函数，余的节点选择使用率最低的节点选择使用率最低的节点. 图2默认副本放置策略 Fig.2 The flowchart of default replica placement l)HdFs副本放置策略是调用ReplicationTarget-- getChooserchooser类的chooseLocalRack函数，在客户 Chooser类的chooseTargrt函数来实现的.开始使用端节点所在机架随机选择一个节点作为第1个节点， NetworkTopology类的contains函数，contains函数通然后将这个节点的信息传给ReplicationTargetChoos- 过判断客户端所在根节点与集群的根节点是否一致 erchooser类中的chooseTargrt函数，且将这个节点的来判断客户端是否在集群中. 信息记录在ReplicationTargetChooserchooser类中的一 2)如果客户端是集群中的一个节点，则调用个DatanodeDescriptor类型的数组results中. ReplicationTargetChooser类的chooseLocalNode函数 4)如果客户端不是集群中的节点，则使用Rep 来尝试选择客户端节点作为第1个节点： licationTargetChooser类的chooseRandom函数在集群 3)客户端存储尝试失败时则调用Replication Tar- 中随机选择一个节点作为第1个节点，且将这个选

储的这一数据块及其所有副本都会丢失．因此，Ｈｄｆｓ对任意一数据块不在同一个节点上放置多个副本，而是将副本尽可能分散存放［８⁃９］．图２给出了Ｈｄｆｓ默认的副本放置策略流程，其中标注了本文所实现的对副本放置策略的改进工作，Ｈｄｆｓ默认的副本放置策略选择３个节点，可以选择多个节点放置副本．图２默认副本放置策略Ｆｉｇ．２Ｔｈｅｆｌｏｗｃｈａｒｔｏｆｄｅｆａｕｌｔｒｅｐｌｉｃａｐｌａｃｅｍｅｎｔ１）ＨｄＦｓ副本放置策略是调用ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔ⁃ Ｃｈｏｏｓｅｒ类的ｃｈｏｏｓｅＴａｒｇｒｔ函数来实现的．开始使用ＮｅｔｗｏｒｋＴｏｐｏｌｏｇｙ类的ｃｏｎｔａｉｎｓ函数，ｃｏｎｔａｉｎｓ函数通过判断客户端所在根节点与集群的根节点是否一致来判断客户端是否在集群中．２）如果客户端是集群中的一个节点，则调用ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类的ｃｈｏｏｓｅＬｏｃａｌＮｏｄｅ函数来尝试选择客户端节点作为第１个节点．３）客户端存储尝试失败时则调用ＲｅｐｌｉｃａｔｉｏｎＴａｒ⁃ ｇｅｔＣｈｏｏｓｅｒｃｈｏｏｓｅｒ类的ｃｈｏｏｓｅＬｏｃａｌＲａｃｋ函数，在客户端节点所在机架随机选择一个节点作为第１个节点，然后将这个节点的信息传给ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓ⁃ ｅｒｃｈｏｏｓｅｒ类中的ｃｈｏｏｓｅＴａｒｇｒｔ函数，且将这个节点的信息记录在ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒｃｈｏｏｓｅｒ类中的一个ＤａｔａｎｏｄｅＤｅｓｃｒｉｐｔｏｒ类型的数组ｒｅｓｕｌｔｓ中．４）如果客户端不是集群中的节点，则使用Ｒｅｐ⁃ ｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类的ｃｈｏｏｓｅＲａｎｄｏｍ函数在集群中随机选择一个节点作为第１个节点，且将这个选第６期邵秀丽，等：Ｈａｄｏｏｐ副本放置策略 ·４９１·

·492 智能系统学报第8卷择的节点记录在数组results中. 空闲的节点，从而达到重新分配数据块的目的，最终 5)ReplicationTargetChooser chooseRemot- 达到整个集群的数据块分布均衡.在数据块重新分 eRack函数在第1个节点的远程机架上随机选择一配的过程中，均衡器会尽量将一个数据块的复本分个节点作为第2个节点.如果在远程机架上选择节散到不同机架，以提高数据块的冗余，降低数据损坏点失败，则使用ReplicationTargetChooser类的choos- 的可能性， eLocalRack函数在第1个节点的本地机架上随机选 Hdfs集群的管理员决定是否启动均衡器，启动择一个节点作为第2个节点.将第2个节点记录在后，会根据管理员设定的阀值来对集群进行均衡处 ReplicationTargetChooserchooser DatanodeDescriptor 理.阀值是每个节点的使用率（该节点上已经使用的下的数组results中. 空间和节点的空间容量之间的比值)和集群的使用 6)选择第3个节点，如果前2个节点是在同一率（集群中已使用的空间和集群的空间容量之间的个机架上，则使用ReplicationTargetChooser类的比值)之间的差值，默认的阀值是10%，管理员在启 chooseRemoteRack函数在前2个节点的远程机架上动均衡器的时候，可以指定阀值的大小.在任何时选择一个节点.如果所选择的前2个节点并不在同刻，集群中只能运行一个均衡器一个机架上面，则使用ReplicationTargetChooser类的均衡器虽然可以解决数据块分布不均衡的问 chooseLocalRack函数在第2个节点的本地机架上随题，但是存在着明显的问题：机选择一个节点作为第3个节点，且存储第3个节 1)均衡器对于集群数据块均衡的调节具有滞点信息在数组results中. 后性，它必须要在系统的不均衡状况超过阀值之后， 7)最终将results中的所有节点返回给副本选才会进行调节择函数的调用者 2)均衡器的运行和数据块的移动需要耗费一 2.2Hdfs副本放置策略的缺陷定的资源，很可能一个数据块刚刚写入到集群中，就 Hfs默认副本放置策略综合考虑了多方面的因为均衡性而被移动，这种情况下集群的资源使用因素，在可靠性、读写效率，负载均衡方面都做了一是很低效的，定的权衡，是一个比较优秀的副本放置策略，但 3Hdfs副本放置策略的改进 Hdfs采用随机选择的副本放置策略.该策略没有考虑到节点负载的情况，在数据均衡方面比较薄弱，这 Hds默认的副本放置策略存在的不足，以及使数据损坏时需要恢复的数据块数量可能会很多， Hdfs提供的均衡器存在一些不尽人意的地方，本文数据读取的速度会受到影响等问题提出了对其改进的低使用率优先(low rate first)副针对这一问题，Hdfs提供了解决方案一均衡本放置策略，器o.均衡器(balancer)是一个Hds的守护进程，启 3.1改进副本放置的流程动之后，它会将数据块从负载较高的节点移到相对图3是副本放置改进策略的流程. 判断本节点使用率尝试选择本节点与集群使用率的差作为第1个节点 client是是否高于阈值 datanode Y 开始选择失败成功第1个节点选择集群中使用率选择本地节点为 client不是最低的节点作为第 datanode 1个节点第1个节点尝试选择与第1个选择该节点为第节点不同机架并且剩余节点选择在集且使用率最低的节成功 2个节点群中使用率最低的点作为第2个节点在本机架选择使用节点远程机架无合适率最低的节点作为节点或者无远程机架第2个节点图3基于3副本放置策略的改进 Fig.3 The improved placement strategy based on three replicas 1)考虑到数据写入带宽问题，依然在客户端所在的节点上写入第1个副本，但考虑了该节点的负载

择的节点记录在数组ｒｅｓｕｌｔｓ中．５）ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类的ｃｈｏｏｓｅＲｅｍｏｔ⁃ ｅＲａｃｋ函数在第１个节点的远程机架上随机选择一个节点作为第２个节点．如果在远程机架上选择节点失败，则使用ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类的ｃｈｏｏｓ⁃ ｅＬｏｃａｌＲａｃｋ函数在第１个节点的本地机架上随机选择一个节点作为第２个节点．将第２个节点记录在ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒｃｈｏｏｓｅｒ类中ＤａｔａｎｏｄｅＤｅｓｃｒｉｐｔｏｒ下的数组ｒｅｓｕｌｔｓ中．６）选择第３个节点，如果前２个节点是在同一个机架上，则使用ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类的ｃｈｏｏｓｅＲｅｍｏｔｅＲａｃｋ函数在前２个节点的远程机架上选择一个节点．如果所选择的前２个节点并不在同一个机架上面，则使用ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类的ｃｈｏｏｓｅＬｏｃａｌＲａｃｋ函数在第２个节点的本地机架上随机选择一个节点作为第３个节点，且存储第３个节点信息在数组ｒｅｓｕｌｔｓ中．７）最终将ｒｅｓｕｌｔｓ中的所有节点返回给副本选择函数的调用者．２．２Ｈｄｆｓ副本放置策略的缺陷Ｈｄｆｓ默认副本放置策略综合考虑了多方面的因素，在可靠性、读写效率，负载均衡方面都做了一定的权衡，是一个比较优秀的副本放置策略，但Ｈｄｆｓ采用随机选择的副本放置策略．该策略没有考虑到节点负载的情况，在数据均衡方面比较薄弱，这使数据损坏时需要恢复的数据块数量可能会很多，数据读取的速度会受到影响等问题．针对这一问题，Ｈｄｆｓ提供了解决方案———均衡器［１０］．均衡器（ｂａｌａｎｃｅｒ）是一个Ｈｄｆｓ的守护进程，启动之后，它会将数据块从负载较高的节点移到相对空闲的节点，从而达到重新分配数据块的目的，最终达到整个集群的数据块分布均衡．在数据块重新分配的过程中，均衡器会尽量将一个数据块的复本分散到不同机架，以提高数据块的冗余，降低数据损坏的可能性．Ｈｄｆｓ集群的管理员决定是否启动均衡器，启动后，会根据管理员设定的阀值来对集群进行均衡处理．阀值是每个节点的使用率（该节点上已经使用的空间和节点的空间容量之间的比值）和集群的使用率（集群中已使用的空间和集群的空间容量之间的比值）之间的差值，默认的阀值是１０％，管理员在启动均衡器的时候，可以指定阀值的大小．在任何时刻，集群中只能运行一个均衡器．均衡器虽然可以解决数据块分布不均衡的问题，但是存在着明显的问题：１）均衡器对于集群数据块均衡的调节具有滞后性，它必须要在系统的不均衡状况超过阀值之后，才会进行调节．２）均衡器的运行和数据块的移动需要耗费一定的资源，很可能一个数据块刚刚写入到集群中，就因为均衡性而被移动，这种情况下集群的资源使用是很低效的．３Ｈｄｆｓ副本放置策略的改进Ｈｄｆｓ默认的副本放置策略存在的不足，以及Ｈｄｆｓ提供的均衡器存在一些不尽人意的地方，本文提出了对其改进的低使用率优先（ｌｏｗｒａｔｅｆｉｒｓｔ）副本放置策略．３．１改进副本放置的流程图３是副本放置改进策略的流程．图３基于３副本放置策略的改进Ｆｉｇ．３Ｔｈｅｉｍｐｒｏｖｅｄｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｂａｓｅｄｏｎｔｈｒｅｅｒｅｐｌｉｃａｓ１）考虑到数据写入带宽问题，依然在客户端所在的节点上写入第１个副本，但考虑了该节点的负载 ·４９２· 智能系统学报第８卷

第6期邵秀丽，等：Hadoop副本放置策略 ·493. 情况，即如果本地节点的负载超过了管理员指定的阀尽管当发生故障时，此策略会影响恢复数据速值，则选择集群中使用率较低的节点来放置副本」度，而且每存储一个副本时都需要调用函数获取节点 2)除第1个副本在阀值满足的情况下放在本信息，并判断该节点是否可以存储副本，这会降低运地节点上之外，其余所有的副本放置位置的选择，都行速度及安全性.但考虑到Hds默认放置策略的副本是采用优先选择集群中比较空闲的节点的方式，以放置的最终状态很难被控制，它在数据均衡方面的缺避免在负载较高的节点上继续存储数据，点比较明显，而这会带来一系列的问题，比如数据损 3)为提高数据块的冗余，尽可能地将数据存储坏时需要恢复的数据块数量可能会有很多，数据读取在至少2个机架上，本地机架上存储第1个副本，第的速度可能会受到影响等因素，本文提出的对于Hfs 2个副本选择与第1个节点不同的机架进行存储因默认副本放置策略的改进方法有相对优势. 为Hds是一次写入、多次读取的设计思想，在数据 3.2改进策略实现的核心类写入的时候穿越多个机架，虽然写人带宽可能会有副本放置改进策略会优先考虑在使用率比较低所降低，但是提高了集群的数据块分布均衡，有利于的节点上放置数据，这通过对Hs中负责副本放置文件的读取和程序的运行节点选择的类ReplicationTargetChooser的改进来完 4)为提高数据的冗余，保持每个节点只存储一成：该类在Hdfs中的作用是当有新增数据块或数据个副本的规则.Hfs的默认副本放置策略是一个节块位置变动的时候，NameNode会调用该类来确定数点最多放置一个副本，如果副本的数量超过节点的据块放置的位置.ReplicationTargetChooser类使用总数，则集群中最多只放置与节点同样数目的副本 chooseTarget函数来选择副本放置的节点，图4描述低使用率优先的放置策略依然坚持这个原则，每个了放置k个副本重写chooseTarget函数来实现的策节点最多只放置一个副本略改进。初始化阶段获取集群中所有的根据数据DN 设置副本的数目不超过集群 DataNode节点信息中的信息计算规模并将其存储在数组 Usage 设置本地节点阀值 DN中定义存储所有节点的数组DN 判断客户端是否为集群中定义存储选择的节点的数组的DataNode Cdn y 定义集群整体使用率Usage 获取本地节点Ldn 判断其使用率与是否只有 Y 选择DN中使用选择Ldn作为第1个副本 Usage的差值是否 1个机架率最低的k个节放置节点小于阀值标记点加入Cdn中 Lowdn为Ldn N N 在DN中选择使用率将dn,从DN中移除，加入到Cdn中最小的DataNodef作为第1个副本放置的是否只有节点，标记为dn, 1个机架在DN中选择使用率最小的且与 N 选择DN中使 Y dn,不在同一个机架上的节点作用率最低的为第2个副本放置的节点将该几选择DN中使用率 k-2个节点加点从DN中移除，加入到Cdn中最低的k-1个节点入到Cdn中加入到cdn中返回Cdn中的结果图4基于K副本放置策略的改进 Fig.4 The improved placement strategy based on K replicas I)函数的初始化阶段：首先调用NetworkTopology 2)管理员可设置本地节点阀值，默认值为01，类中的get NumOfLeaves函数来获取集群的大小，控制改进后的Hfs在配置文件中为用户设置阀值提供副本数目不超过集群的大小，如果设置的副本的数目了接口，在Hdfs.xml文件中可以通过为dfs.replica- 超过集群的大小，则设置副本数目为集群大小 tion.threshold设置值来实现阀值的控制，阀值的范

情况，即如果本地节点的负载超过了管理员指定的阀值，则选择集群中使用率较低的节点来放置副本．２）除第１个副本在阀值满足的情况下放在本地节点上之外，其余所有的副本放置位置的选择，都是采用优先选择集群中比较空闲的节点的方式，以避免在负载较高的节点上继续存储数据．３）为提高数据块的冗余，尽可能地将数据存储在至少２个机架上，本地机架上存储第１个副本，第２个副本选择与第１个节点不同的机架进行存储．因为Ｈｄｆｓ是一次写入、多次读取的设计思想，在数据写入的时候穿越多个机架，虽然写入带宽可能会有所降低，但是提高了集群的数据块分布均衡，有利于文件的读取和程序的运行．４）为提高数据的冗余，保持每个节点只存储一个副本的规则．Ｈｄｆｓ的默认副本放置策略是一个节点最多放置一个副本，如果副本的数量超过节点的总数，则集群中最多只放置与节点同样数目的副本．低使用率优先的放置策略依然坚持这个原则，每个节点最多只放置一个副本．尽管当发生故障时，此策略会影响恢复数据速度，而且每存储一个副本时都需要调用函数获取节点信息，并判断该节点是否可以存储副本，这会降低运行速度及安全性．但考虑到Ｈｄｆｓ默认放置策略的副本放置的最终状态很难被控制，它在数据均衡方面的缺点比较明显，而这会带来一系列的问题，比如数据损坏时需要恢复的数据块数量可能会有很多，数据读取的速度可能会受到影响等因素，本文提出的对于Ｈｄｆｓ默认副本放置策略的改进方法有相对优势．３．２改进策略实现的核心类副本放置改进策略会优先考虑在使用率比较低的节点上放置数据，这通过对Ｈｄｆｓ中负责副本放置节点选择的类ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ的改进来完成；该类在Ｈｄｆｓ中的作用是当有新增数据块或数据块位置变动的时候，ＮａｍｅＮｏｄｅ会调用该类来确定数据块放置的位置．ＲｅｐｌｉｃａｔｉｏｎＴａｒｇｅｔＣｈｏｏｓｅｒ类使用ｃｈｏｏｓｅＴａｒｇｅｔ函数来选择副本放置的节点，图４描述了放置ｋ个副本重写ｃｈｏｏｓｅＴａｒｇｅｔ函数来实现的策略改进．图４基于Ｋ副本放置策略的改进Ｆｉｇ．４ＴｈｅｉｍｐｒｏｖｅｄｐｌａｃｅｍｅｎｔｓｔｒａｔｅｇｙｂａｓｅｄｏｎＫｒｅｐｌｉｃａｓ１）函数的初始化阶段：首先调用ＮｅｔｗｏｒｋＴｏｐｏｌｏｇｙ类中的ｇｅｔＮｕｍＯｆＬｅａｖｅｓ函数来获取集群的大小，控制副本数目不超过集群的大小，如果设置的副本的数目超过集群的大小，则设置副本数目为集群大小．２）管理员可设置本地节点阀值，默认值为０．１，改进后的Ｈｄｆｓ在配置文件中为用户设置阀值提供了接口，在Ｈｄｆｓ．ｘｍｌ文件中可以通过为ｄｆｓ．ｒｅｐｌｉｃａ⁃ ｔｉｏｎ．ｔｈｒｅｓｈｏｌｄ设置值来实现阀值的控制，阀值的范第６期邵秀丽，等：Ｈａｄｏｏｐ副本放置策略 ·４９３·

点击进入文档下载页（PDF格式）

共8页，试读已结束，阅读完整版请下载

您可能感兴趣的文档

点击购买下载（PDF）

下载及服务说明

购买前请先查看本文档预览页，确认内容后再进行支付；
如遇文件无法下载、无法访问或其它任何问题，可发送电子邮件反馈，核实后将进行文件补发或退款等其它相关操作；
邮箱：

文档浏览记录

智能系统：hadoop副本放置策略