ubuntu10.04+hadoop0.20.2平台配置(完全分布式模式)

前端之家收集整理的这篇文章主要介绍了ubuntu10.04+hadoop0.20.2平台配置(完全分布式模式)前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

配置环境及有关工具:ubuntu10.04 、hadoop0.20.2 、 jdk1.6.0_29

我们的机器有三台,一台当作namenode、两台当作datanode:

namenode:IP:192.168.0.25、机器名:kiddenzj 这里的机器名要注意:机器名不能包含下划线“_”,一开始没注意后来找了半天才发现这个原

datanode:IP:192.168.0.8 、机器名:kiddenxcc

IP192.168.0.66、机器名: kiddenhw

集群里所有登陆的用户名和密码都要保持相同,我在这里创建了名为grid的用户,后面的步骤就是在这个用户下进行的。


配置步骤:

1)安装ssh

输入命令:

[java] view plain copy
  1. apt-getinstallssh

2)SSH配置

SSH配置主要是为了实现在机器间执行指令时不再需要输入密码,在所有的机器上建立.ssh目录,这里我们建立在/home/grid下面:

[html] copy
    mkdir.ssh
然后在namenode机器上生成密钥对,执行:
copy
    ssh-keygen-trsa
然后一直按Enter键,就会按照默认选项生成密钥对保存在.ssh/id_rsa文件中。

继续执行如下命令,把密钥传递给每个datanode节点:

copy
    cd~/.ssh
  1. cpid_rsa.pubauthorized_keys
  2. scpauthorized_keyskiddenhw:/home/grid/.ssh
  3. scpauthorized_keyskiddenxcc:/home/grid/.ssh
然后分别在每台datanode机器上执行如下命令,以改变authorized_keys文件的许可权限:
copy
    chmod644authorized_keys
到此,从namenode发起的到其他datanode节点的SSH连接,就会只需在第一次登录是输入密码,以后则不再需要。

可以通过如下命令发起连接:

copy
    sshkiddenhw

3)jdk的安装(namenode机和datanode机均按此安装)

下载jdk-6u29-linux-i586.bin,安装到/usr/java下,cd到usr/java下,

  
  
[python] view plain copy
  1. sudochmodu+xjdk-6u29-linux-i586.bin
  2. sudo./jdk-6u29-linux-i586.bin

接下来要设置java的环境变量输入命令:

[javascript] copy
    sudogedit/etc/profile
文件的最后添加以下语句:
copy
    JAVA_HOME=/usr/java/jdk1.6.0_29
  1. exportJRE_HOME=/usr/java/jdk1.6.0_29/jre
  2. exportCLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
  3. exportPATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

保存退出,然后执行source /etc/profile即可。

输入java -version 命令,出现如下信息就表示配置成功

copy
    javaversion"1.6.0_29"
  1. Java(TM)SERuntimeEnvironment(build1.6.0_29-b11)
  2. JavaHotSpot(TM)ServerVM(build20.4-b02,mixedmode)
4)hadoop的安装配置(只是在namenode端安装配置,完成后namenode可以直接把配置好的hadoop发送到各个datanode端)

在这里,下载hadoop-0.20.2.tar.gz,然后解压到/home/grid/下即可,

在hadoop文的件夹下需要建立几个文件夹,如下:

(这里一开始没有创建,结果查看运行信息的时候,虽然datanode节点都有进程在运行,但livenodes节点依然为0)

copy
    mkdirtmp
  1. mkdirhdfs
  2. mkdirhdfs/name
  3. mkdirhdfs/data
接下来需要修改hadoop的conf文件夹下的配置信息:

修改hadoop-env.sh,加入如下语句,使得hadoop能够找到java的路径。:

copy
    exportJAVA_HOME=/usr/java/jdk1.6.0_2

修改core-site.xml,如下:

copy
    <configuration>
  1. <property>
  2. <name>fs.default.name</name>
  3. <value>hdfs://kiddenzj:9000</value>
  4. </property>
  5. </configuration>

修改hdfs-site.xml,如下

[cpp] copy
    <name>dfs.replication</name>
  1. <value>1</value>
  2. </configuration>

修改mapred-site.xml,如下:

copy
    <name>mapred.job.tracker</name>
  1. <value>kiddenzj:9001</value>
  2. </configuration>
masters里写入作为namenode节点机器的名称,我们这里是:kiddenzj

slaves里写入作为datanode节点的机器名,这里是:kiddenhw和kiddenxcc

到此,hadoop的有关配置已经完成,namenode端通过如下命令把配置好的hadoop发送到各个datanode处:

copy
    scp-rhadoop-0.20.2kiddenhw:/home/grid
  1. scp-rhadoop-0.20.2kiddenxcc:/home/grid

5)修改每台机器上/etc下面的hosts文件,也就是写入所有的机器名和对应IP地址(包括namenode和datanode节点),我们这里修改后如下:

copy
    127.0.0.1localhost
  1. 192.168.0.8kiddenxcc
  2. 0.25kiddenzj
  3. 0.66kiddenhw
6)
到此基本配置已经完成,在namenode端cd到hadoop文件夹下,格式化分布式文件系统:
copy
    bin/hadoopnamenode-format

下面接着在namenode端启动hadoop进程:

copy
    bin/start-all.sh
如果没有其它差错的话,hadoop可以正常启动,并能够看到如下结果:

在namenode端用jps命令查看启动情况,如下:

copy
    grid@kiddenzj:~/hadoop-0.20.2$jps
  1. xxxxJps
  2. xxxxNamenode
  3. xxxxSecondarynamenode
  4. xxxxJobTracker

在datanode端用jps查看启动情况,如下:

copy
    grid@kiddenhw:~/hadoop-0.20.2$jps
  1. xxxxDatanode
  2. xxxxTaskTracker

然后可以通过如下地址来查看集群运行状况:

copy
    http://kiddenzj:50030
  1. http://kiddenzj:50070
  2. <prename="code"class="html">http://kiddenhw:50060</pre>
  3. >>
  4. >

猜你在找的Ubuntu相关文章