Hadoop 环境的搭建
一、安装VMWare 虚拟机
虚拟机版本VMware12,考虑到启动速度,装在固态硬盘中。
二、安装Linux
安装版本:ubuntu-16.04.1-server-amd64
此版本没有图形化界面,体积较小,只有命令行窗口
三、配置Linux
1、为了方便操作以及避免权限的相关问题,不用个人用户,使用root用户登录来进行操作 ——>root用户的解锁:修改root密码,方便登录
sudo passwdroot
2、关闭防火墙,卸载iptables
关闭防火墙:ufw disable
卸载iptables:apt-get removeiptables
3、安装vim编辑器
apt-getinstall vim
四、安装SSH工具
为了方便不在Linux命令窗口中输入命令,转而在Windows工具中远程控制Linux——>配置SSH工具远程连接
1、在Linux中安装SSH服务
apt-getinstall openssh-server
2、启动SSH服务
/etc/init.d/sshstart
3、检测SSH进程是否已经开启
ps -e| grep sshd
4、配置root用户的默认登录【这样每次打开SSH工具就不用登陆了,自动登陆到root上】
vim /etc/ssh/sshd_config
·PermitRootLogin: yes
保存,退出 :x
5、打开SSH客户端(这里使用SecureCRT)配置
·Linux下查询本机IP:ifconfig 查看inet addr
·SecureCRT中:Hostname输入查询到的IP,Username输入root
这里使用SecureCRT连接本地VMware是可能会遇到
“Connection timed out”,并且在Vmware的VM里面可以ping通宿主机,但是宿主机无法ping通VM。 解决方法:本地的网络设置里面的vmware的NAT网卡(Vmnet8)设置了手工填写地址和DNS,修改为自动获取即可。
五、配置FTP服务
为了方便Windows传输文件到Linux中,所以要配置FTP服务,使用客户端8UFTP
1、在Linux中安装FTP服务组件
apt-getinstall vsftpd
passwdftp
3、设置FTP目录的控制权限为完全控制
chmod777 /srv/ftp (文件都上传到这个目录里)
vim /etc/vsftpd.conf
修改:
anonymous_enable= NO //不允许匿名登录,必须使用正确的用户名和密码登录
write_enable=YES //用户具有写权限
chroot_local_user= YES //将所有用户限制在主目录
chroot_list_enable= YES //启动限制用户名单
chroot_list_file=/etc/vsftpd.chroot_list //定义名单设置的目录
增加:
pam_service_name=vsftpd //增加到定义名单设置目录之后
保存退出
先增加文件/etc/vsftpd.chroot_list,然后在文件里面写上用户名ftp
vim/etc/vsftpd.chroot_list
输入ftp
保存退出
vim /etc/pam.d/vsftpd
注释掉(添加#号):
# auth required pam_shells.so
保存退出
7、启动ftp服务
servicevsftpd start
(重新启动服务 service vsftpdrestart)
8、连接客户端8UFTP
新站点:
主机名:IP地址
用户名:ftp
密码:123110(Linux中配置的ftp账号密码)
六、在Linux中安装JDK
1、下载Linux版本的JDK安装包jdk-8u101-linux-x64.tar
2、把JDK开发包利用8UFTP工具上传到Linux中(目录/srv/ftp中)
tar xzvf JDK安装包文件名 -C /usr/local
mv JDK原名 jdk
5、配置JDK
·打开环境文件
vim /etc/profile
·在最下面,输入
export JAVA_HOME=/usr/local/jdk
export PATH=$PATH:$JAVA_HOME/bin:
export CLASS_PATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
保存退出
6、让配置生效
source /etc/profile
7、测试 JDK
java 或 javac
七、配置SSH 免登录
1、设置虚拟网络
·进入Linux系统,在VM中选择编辑-虚拟网络配置,选择NAT模式
2、设置主机名称
vim /etc/hostname
把localhost 修改为 hadoopm
vim /etc/hosts
第一行增加
本机ip地址 hadoopm
3、重启Linux reboot
4、设置SSH免登陆
·删除根路径下.ssh
rm -rf~/.ssh
·在hadoopm主机上生成sshkey
ssh-keygen -t rsa(一直回车,不输入) //加密方式 rsa,可以选择其他方式
·将公钥信息保存在授权文件中
cat ~/.ssh/id_rsa.pub >>~/.ssh/authorized_keys
5、测试免登陆(即登录ssh)
ssh root@hadoopm 变为远程连接
八、安装hadoop(伪分布模式)——版本2.7.3
1、下载hadoop安装包
2、解压重命名hadoop安装包
tar xzvf hadoop安装包文件名 -C /usr/local
mv hadooop安装包名 hadoop
3、修改环境变量
vim /etc/profile
export HADOOP_HOME =/usr/local/hadoop
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
让配置生效
source /etc/profile
配置:“core-site.xml”:Hadoop的核心信息,包括临时目录、访问地址等;
配置:“yarn-site.xml”:可以简单理解为配置相关job的处理;
配置:“hdfs-site.xml”:可以确定文件的备份个数、数据文件夹的路径;
·vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
更改JavaJDK路径
export JAVA_HOME=/usr/local/jdk/
(1)core-site.xml
·vim /usr/local/hadoop/etc/hadoop/core-site.xml
添加:
######################################################################################
## 配置hadoop临时文件,如果不配置,那么就会在hadoop的文件夹里面生产tmp文件("/usr/local/hadoop/tmp"),
## 那么hadoop重启此文件会被清空,也就是说此时hadoop的环境就失效了。 创建hadoop_tmp文件
## cd ~
##mkdir hadoop_tmp
#######################################################################################
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/root/hadoop_tmp</value>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoopm:9000</value>
</property>
</configuration>
(2)hdfs-site.xml
vim/usr/local/hadoop/conf/hdfs-site.xml
######################################################################################
## “dfs.replication”:文件的副本数,一般情况下一个文件备份3份
## “dfs.namenode.name.dir”:定义名称节点路径
## “dfs.namenode.data.dir”:定义数据文件节点路径
## “dfs.datanode.data.dir”:名称节点的http访问路径
## “dfs.namenode.secondary.http-address”:第二名称节点
## “dfs.permissions”: 权限认证问题,关闭
#######################################################################################
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:///usr/local/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:///usr/local/hadoop/dfs/data</value>
</property>
<property>
<name>dfs.namenode.http-address</name>
<value>hadoopm:50070</value>
</property>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>hadoopm:50090</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
</configuration>
(3)yarn-site.xml
·vim /usr/local/hadoop/conf/ yarn-site.xml
添加:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.auxservices.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>·
(4)mapred-site.xml
vim/usr/local/hadoop/conf/mapred-site.xml
添加:
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hadoopm:9001</value>
</property>
</configuration>
5、由于hadoop属于分布式的开发环境,考虑到日后要进行集群的搭建,建议在“/usr/local/hadoop/etc/hadoop”目录下创建一个masters,里面写上主机名称(hadoopm,之前在hosts目录里面定义的主机名称),如果是单机环境,不写也没有关系。
cd/usr/local/hadoop/etc/hadoop
vimmasters
输入:hadoopm
6、修改从节点文件,增加hadoopm(此时主副节点为统一节点)
cd/usr/local/hadoop/etc/hadoop
vimslaves
输入:hadoopm
7、上述hdfs-site.xml文件将所有的namenode、datanode保存路径设置在/usr/local/hadoop/dfs目录中,虽然可以自动创建,但是建议手动创建者两个文件夹
cd/usr/local/hadoop/
mkdirdfs dfs/name dfs/data
如果hadoop出现问题需要重新配置时,请保证将这两个文件夹彻底清除掉,如果没有删除,则配置无效。
8、格式化文件系统namenode
hdfs namenode- format
如果可以正确执行,则出现如下信息:INFO util.ExitUtil: Exiting with status 0;
如果出错,此处出现: INFOutil.ExitUtil: Exiting with status 1,很有可能是之前的几个配置文件复制、粘贴时出现了错误。
9、启动hadoop
start-all.sh 每次启动hadoop都要输入
10、检测是否启动成功
jps 查看所有java进程(是否出现了5个重要进程,Jps进程忽略)
6116SecondaryNameNode
5940Datanode
6500Jps
5802NameNode
6270ResourceManager
6382NodeManager
或者登录 http://ip地址:50070 http://ip地址:50030
(如果想用hadoopm从windows登录,则需要在windows下增加映射文件,
C:\Windows\System32\drivers\etchosts 追加 ip地址 hadoopm)
11、停止服务
stop-all.sh 使用jps查看进程
如果重启发现进程启动不完整的解决方案:http://www.linuxidc.com/Linux/2015-01/111891.htm
···配置完毕··