Hadoop如何确定数据副本存放的位置即replication policies _Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛

Hadoop如何确定数据副本存放的位置即replication policies _Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛

联动北方技术论坛-国内领先的Weblogic、Tuxedo中间件技术论坛

联动北方-国内领先的云技术服务提供商

» 游客

当前位置：论坛首页 » 自由讨论区 » Hadoop，ERP及大数据讨论区 »

总帖数

1

每页帖数

10

1/1页

1

返回列表

查看: 2606 | 回复: 0

主题： Hadoop如何确定数据副本存放的位置即replication policies

上一篇

下一篇

youduoduo

注册用户

等级：新兵
经验：78
发帖：78
精华：0
注册：2011-11-26
状态：离线
发送短消息息给youduoduo

发送短消息息给youduoduo

加好友发送短消息息给youduoduo

发送短消息息给youduoduo

发消息

发表于：

IP：您无权察看

2015-5-8 10:16:45 | [全部帖] [楼主帖]

楼主

我们知道当我们要write data到datanode时，首先要通过namenode确定文件是否已经存在，若不存在则DataStreamer会请求namenode确定新分配的block的位置，然后就行write。

具体namenode如何确定选择哪个datanode存储数据呢？这里namenode会参考可靠性，读写的带宽等因素来确定。具体如下说明：

假设replica factor=3，Hadoop会将第一个replica

放到client node里，这里node是随机选择的，当然hadoop还是想不要选择过于busy过于full的node；

第二个replica

会随机选择和第一个不在同一rack的node；

第三个replica

放到和第二个一样的rack里，但是随机选择一个不同的node。

如果replica factor更大则其他副本随即在cluster里选择。当然这里hadoop还是随机的，尽管我们都知道尽量不要吧更多的replica放到同一个rack里，这不仅影响可靠性而且读写的带宽有可能成为瓶颈。

当replica的location确定之后，write的pipline就会建成，里面是被分解的data packets，然后按照网络的拓扑结构进行操作。

总的来说，这个策略综合考虑了

可靠性：blocks存储在两个不同的rack里；

写带宽：写操作只用经过一个网络转换器network switch；

读性能：可以选择从两个rack中读数据；

分布性：client只是将block写入本地rack一次。

--转自

北京联动北方科技有限公司

本版精华
热门帖子

赞(0)

操作引用/回复

总帖数

1

每页帖数

10

1/1页

1

返回列表

技术讨论

Powered by landingbj @ 2008-2015 联动北方
京ICP证号090597 京ICP备案09017624号京公网安备110112000093号
86-27-87056338 Email：service@landingbj.com