[转帖]Linux环境下的Hadoop安装_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3352 | 回复: 0   主题: [转帖]Linux环境下的Hadoop安装        下一篇 
jie.liang
注册用户
等级:少校
经验:1003
发帖:77
精华:0
注册:2013-10-11
状态:离线
发送短消息息给jie.liang 加好友    发送短消息息给jie.liang 发消息
发表于: IP:您无权察看 2013-10-18 10:45:08 | [全部帖] [楼主帖] 楼主

本人安装过程参考如下网页:http://hi.baidu.com/life_to_you/item/be429f9e7aa3a91d924f41bb

  • linux下jdk环境配置,这里略

  • hadoop下载   http://www.apache.org/dyn/closer.cgi/hadoop/common/

  • hadoop安装(解压-设置下环境变量)


    解压:tar –zvxf hadoop-0.20.1.tar.gz  

    把Hadoop 的安装路径添加到环境变量中/etc/profile:

export HADOOP_HOME=/data/worker/hadoop-0.20.1
export PATH=$HADOOP_HOME/bin:$PATH

  • hadoop配置

    1.在conf/hadoop-env.sh 中配置Java 环境(namenode 与datanode 的配置相同)

    2.export JAVA_HOME=/usr/local/java/jdk1.6.0_31

    3.配置conf/core-site.xml, conf/hdfs-site.xml 及conf/mapred-site.xml(简单配 置,datanode 的配置相同)  

    4.core-site.xml

    <configuration>

    <!--- global properties -->

    <property>

    <name>hadoop.tmp.dir</name>

    <value>/data/worker/hadoop-1.2.0/tmp</value>

    <description>A base for other temporary directories.此处必须要加,否则必须先bin/hadoop namenode -format 格式化。原因:在linux下hadoop等的各种数据保存在/tmp目录下。 当重启系统后/tmp目录中的数据信息被清除,导致hadoop启动失败。 当bin/hadoop namenode -format 格式化后,恢复了默认设置,即可正常启动</description>

    </property>

    <!-- file system properties -->

    <property>

    <name>fs.default.name</name>

    <value>hdfs://localhost:9000</value>

    </property>

    </configuration>

    5.hdfs-site.xml:( replication 默认为3,如果不修改,datanode 少于三台就会报错)



          <configuration>

    <property>

    <name>dfs.name.dir</name>

    <value>/data/worker/hadoop-1.2.0/hdfs/name</value>

    <description>namenode上存储hdfs名字空间元数据</description>

    </property>

    <property>

    <name>dfs.data.dir</name>

    <value>/data/worker/hadoop-1.2.0/hdfs/data</value>

    <description>datanode上数据块的物理存储位置</description>

    </property>

    <property>

    <name>dfs.replication</name>

    <value>1</value>

    </property>

    </configuration>

    6.mapred-site.xml

    <configuration>

    <property>

    <name>mapred.job.tracker</name>

    <value>localhost:9001</value>

    <description>jobtracker标识:端口号,不是URI</description>

    </property>

    </configuration>

  • 运行hadoop

    首先进入hadoop所在目录,第一次执行要格式化文件系统bin/hadoop namenode –format 

    启动bin/start-all.sh 

    用jps命令查看进程,显示:

    9862 Jps

    444 SecondaryNameNode

    32723 DataNode

    32550 NameNode

    756 TaskTracker

    553 JobTracker

    少一个都不对

    还有就是使用web接口访问

    http://localhost:50030 

    可以查看JobTracker的运行状态

    http://localhost:50060 

    可以查看TaskTracker的运行状态

    http://localhost:50070 

    可以查看NameNode以及整个分布式文件系统的状态,浏览分布式文件系统中的文件以及log等。

  • 运行测试实例

    这里使用附带jar包里的wordcount

    (1)先在本地磁盘建立两个输入文件file01 和 file02: 

$ echo "Hello World Bye World" > file01
$ echo "Hello Hadoop Goodbye Hadoop" > file02


       (2)在hdfs 中建立一个input目录:

$ hadoop fs –mkdir input


       (3)将file01 和 file02 拷贝到hdfs中:  

$ hadoop fs –copyFromLocal file0* input


       (4)执行wordcount:  

$ hadoop jar hadoop-examples-1.2.0.jar wordcount input output


       (5)完成之后,查看结果:

    $ bin/hadoop fs -ls . 查看已有的文件列表

    $ hadoop fs -cat output/part-r-00000  查看结果

    结果为:可见把单词都统计了

Bye 1
Goodbye 1
Hadoop 2
Hello 2
World 2


最后附加官方文档

1.单机文档http://hadoop.apache.org/docs/r1.2.0/single_node_setup.html

2.集群文档http://hadoop.apache.org/docs/r1.2.0/cluster_setup.html




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论