Hadoop如何确定数据副本存放的位置即replication policies _Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 2606 | 回复: 0   主题: Hadoop如何确定数据副本存放的位置即replication policies         上一篇   下一篇 
youduoduo
注册用户
等级:新兵
经验:78
发帖:78
精华:0
注册:2011-11-26
状态:离线
发送短消息息给youduoduo 加好友    发送短消息息给youduoduo 发消息
发表于: IP:您无权察看 2015-5-8 10:16:45 | [全部帖] [楼主帖] 楼主

我们知道当我们要write data到datanode时,首先要通过namenode确定文件是否已经存在,若不存在则DataStreamer会请求namenode确定新分配的block的位置,然后就行write。

具体namenode如何确定选择哪个datanode存储数据呢?这里namenode会参考可靠性,读写的带宽等因素来确定。具体如下说明:

假设replica factor=3,Hadoop会将第一个replica

放到client  node里,这里node是随机选择的,当然hadoop还是想不要选择过于busy过于full的node;

第二个replica

会随机选择和第一个不在同一rack的node;

第三个replica

放到和第二个一样的rack里,但是随机选择一个不同的node。

如果replica factor更大则其他副本随即在cluster里选择。当然这里hadoop还是随机的,尽管我们都知道尽量不要吧更多的replica放到同一个rack里,这不仅影响可靠性而且读写的带宽有可能成为瓶颈。

当replica的location确定之后,write的pipline就会建成,里面是被分解的data packets,然后按照网络的拓扑结构进行操作。

总的来说,这个策略综合考虑了

可靠性:blocks存储在两个不同的rack里;

写带宽:写操作只用经过一个网络转换器network switch;

读性能:可以选择从两个rack中读数据;

分布性:client只是将block写入本地rack一次。

--转自 北京联动北方科技有限公司




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论