一、安装
1、JDK
点击
这里下载JDK,执行如下指令安装JDK:
#rpm -ivh jdk-x.y.z.rpm
设置JDK环境变量:
#vi /etc/profile
在最后面加入:
#set java environment
JAVA_HOME=/usr/java/jdk-x.y.z
CLASSPATH=.:$JAVA_HOME/lib/tools.jar
PATH=$JAVA_HOME/bin:$PATH
export JAVA_HOME CLASSPATH PATH
执行如下命令检查环境变量设置情况:
#source /etc/profile
#echo $JAVA_HOME
#echo $CLASSPATH
#echo $PATH
执行如下命令检查JDK是否安装成功:
#java -version
2、Hadoop
点击 这里下载Apache Hadoop的稳定发布包,再解压到本地文件系统中:
#tar xzf hadoop-x.y.z.tar.gz
在安装Hadoop之前,需要指定Java在本系统中的路径,即JAVA_HOME环境变量指向一个Java安装:
#echo $JAVA_HOME
当然这在前面就已经设置过了。
Hadoop套用Windows上说法就是纯绿色版,解压就算安装了。
创建一个指向Hadoop安装目录环境变量(比如HADOOP_INSTALL),再把Hadoop安装目录(即解压目录)放在命令行路径上:
#vi /etc/profile
#set hadoop environment
HADOOP_INSTALL=/home/scq/hadoop-x.y.z
PATH=$PATH:$HADOOP_INSTALL/bin
export HADOOP_INSTALL PATH
#source /etc/profile
可以执行如下命令来验证Hadoop是否运行:
#hadoop version
需要注意的是,为了避免不必要的麻烦,请在安装Hadoop前一定要确认是否已经安装并设置好了JDK。
二、配置
1、配置文件
Hadoop的各个组件均可利用XML文件进行配置,其中,core-site.xml文件用于配置Common组件的属性,hdfs-site.xml文件用于配置HDFS属性,而mapred-site.xml文件则用于配置MapReduce属性,这些配置文件都放在etc子目录中。
此外,在docs子目录中还存放三个HTML文件,即core-default.html、hdfs-default.html和mapred-default.html,它们分别保存各组件的默认属性设置。
2、伪分布模式
Hadoop有三种 运行模式,这里以伪分布式模式为例,如下来配置伪分布模式:
(1)core-site.xml
<?xml version="1.0"?>
<!-- core-site.xml -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost/</value>
</property>
</configuration>
(2)hdfs-site.xml
<?xml version="1.0"?>
<!-- hdfs-site.xml -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(3)mapred-site.xml
<?xml version="1.0"?>
<!-- mapred-site.xml -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:8021</value>
</property>
</configuration>
3、配置SSH
在伪分布模式下工作时必须启动守护进程,而启动守护进程的前提是已经成功安装SSH。Hadoop并不严格区分伪分布模式和全分布模式,它只是启动集群主机集(由slaves文件定义)的守护进程:SSH-ing到各个主机并启动一个守护进程。在伪分布模式下,(单)主机就是本地计算机,因而伪分布模式也可视作全分布模式的一个特例。需要注意的是,必须确保用户能够SSH到本地主机,并不输入密码即可登录。
首先,确保SSH已经安装,且服务器正在运行,否则,如下来安装SSH:
#yum install openssh-server
然后,基于空口令创建一个新SSH密钥,以启用无密码登录:
#ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
#cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
用以下指令进行测试:
#ssh localhost
如果成功��则无需键入密码。
三、格式化
在使用Hadoop之前,必须格式化一个全新的HDFS安装。通过创建存储目录和NameNode持久化数据结构的初始版本,格式化过程创建了一个空的文件系统。由于NameNode管理文件系统的元数据,而DataNode可以动态地加入或离开集群,因此这个格式化过程并不涉及DataNode。同理,用户也无需关注文件系统的规模。集群中DataNode的数量决定着文件系统的规模。DataNode可以在文件系统格式化之后的很长一段时间内按需增加。
格式化HDFS文件系统非常方便,只需键入如下指令:
#hadoop namenode -format
四、启动和终止
1、启动
为了启动HDFS和MapReduce守护进程,只需键入如下指令:
#cd hadoop-2.2.0/sbin
#./start-dfs.sh
#./start-mapred.sh
如果配置文件没有在默认的etc子目录中,则在启动守护进程时使用--config选项,该选项采用绝对路径指向配置目录:
#./start-dfs.sh --config path-to-config-directory
#./start-mapred.sh --config path-to-config-directory
本地计算机将启动三个守护进程:一个namenode、一个辅助namenode和一个datanode。可以浏览logs目录(在Hadoop安装目录)中的日志文件来检查守护进程是否成功启动,或通过Web界面,在http://localhost:50030/查看jobtracker或在http://localhost:50070/查看namenode。此外,Java的jps命令也能查看守护进程是否在在运行。
2、终止
终止守护进程也很容易,执行如下指令即可:
#./stop-dfs.sh
#./stop-mapred.sh
原文摘自:
http://blog.chinaunix.net/uid-22312037-id-3993641.html
该贴由koei123转至本版2015-2-6 5:23:07
该贴由koei123转至本版2015-2-6 5:23:33