[转帖]hadoop学习笔记之一_Hadoop，ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛

总帖数

每页帖数

1/1页

返回列表

发起投票

查看: 2987 | 回复: 0

主题： [转帖]hadoop学习笔记之一

周逸涵

注册用户

等级：少校
经验：871
发帖：83
精华：0
注册：2013-7-8
状态：离线
发送短消息息给周逸涵

加好友发送短消息息给周逸涵

发消息

发表于：

2013-7-10 9:44:58 | [全部帖] [楼主帖]

楼主

1、Hadoop能解决哪些问题：

海量数据需要及时分析和处理，

海量数据需要深入分析和挖掘，

数据需要长期保存。

问题：

磁盘IO成为一种瓶颈，而非CPU资源，

网络宽带是一种稀缺资源，

硬件故障成为影响稳定的一大因素。

2、Hadoop生态系统

    实现Hbase(NoSql数据库，key-value存储)，可以最大化利用内存
    实现HDFS，可以最大化利用磁盘
    实现MapReduce，可以最大化利用CPU

3、HDFS

基本概念：HDFS(Hadoop Distributed File System)是一个很好的分布式文件系统，默认的最基本的存储单位是64M的数据块(block)，和普通文件系统相同的是，HDFS中的文件是被分成64M一块的的数据块存储的；不同于普通文件系统的是，HDFS中，如果一个文件小于一个数据块的大小，并不占用整个数据块存储��间。可通过副本机制提高可靠度和读取吞吐量，每个区块默认分到三台DataNode(启动DataNode的时候会向NameNode汇报block信息--三秒一次，如果NameNode10分钟没有收到DataNode的发送响应，则会认为DataNode已经lost，并copy自身的block到其它DataNode)上，单一的master(NameNode--提供名称查询服务，是一个jetty服务器)来协调存储元数据(metadata--会在启动后加载到内存)；客户端对文件没有缓存机制。block的副本放置策略：第一个副本，放置在上传文件的DataNode，如果是集群外提交则随机挑选一台磁盘不太慢CPU不太忙的节点；第二个副本，放置在与第一个副本不同的机架节点上；第三个副本，与第二个副本相同集群的节点；其他副本，随机节点。具体HDFS详解可参考http://www.cnblogs.com/chinacloud/archive/2010/12/03/1895369.html

本版精华
热门帖子

操作引用/回复

总帖数

每页帖数

1/1页

返回列表

用户登录

Weblogic中间件技术论坛

Tuxedo中间件技术论坛

数据库论坛

Java论坛

Linux/unix论坛

网站地图