频道导航

hadoop伪分布式之启动HDFS并运行MR程序（WordCount）

2020-12-05 Hadoop 前端之家

前端之家收集整理的这篇文章主要介绍了hadoop伪分布式之启动HDFS并运行MR程序（WordCount），前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

一、配置相关文件

在hadoop-2.9.2下etc/hadoop/core-site.xml中配置：

@H_404_4@

<configuration>
    <!--指定HDFS中NameNode的地址-->
    property>
        name>fs.defaultFS</value>hdfs://hadoop01:9000指定hadoop运行时产生文件的存储目录>hadoop.tmp.dir>/opt/module/hadoop-2.9.2/data/tmp>
>

hadoop01是当前主机名。

在hdfs-site.xml中配置

@H_404_4@

指定HDFS副本的数量-->
>dfs.replication>1>

配置hadoop-env.sh：

@H_404_4@

export JAVA_HOME=/opt/module/jdk1.8.0_11

二、启动集群

在hadoop-2.9.2目录下

（1）格式化NaneNode（第一次启动时要格式化，以后就不要总格式化）

bin/hdfs namenode -format

（2）启动NameNode

sbin/hadoop-daemon.sh start namenode

之后使用jps查看：

（3）启动Datanode

sbin/hadoop-daemon.sh start datanode

（3）关闭防火墙

systemctl status firewalld.service查看防火墙状态

systemctl stop firewalld.service 关闭运行的防火墙

然后在windows中就可以访问了：

进入到以下目录中：

在hadoop-2.9.2目录下输入：

bin/hdfs dfs -mkdir -p /user/gong/input

刷新浏览器中刚才的目录，就会出现：

我们上传一个数据上去：

bin/hdfs dfs -put wcinput/wc.input /user/gong/input

（4）执行一个实例WordCount

在hadoop-2.9.2目录下输入：

bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.9.2.jar wordcount /user/gong/input /user/gong/output

然后在浏览器中就可以看到结果啦：

可以在Linux中运行bin/hdfs dfs -cat /user/gong/output/p* 查看

上一篇：hadoop之java.io.IOException: Got 下一篇：hadoop伪分布式之配置文件说明

猜你在找的Hadoop相关文章

不可不知的资源管理调度器Hadoop Yarn

Yarn（Yet Another Resource Negotiator）是一个资源调度平台，负责为运算程序如Spark、Ma...

作者：前端之家时间：2020-12-11

详解MapReduce（Spark和MapReduce对比铺垫篇）

MapReduce是Hadoop核心三剑客之一，设计思想来源于谷歌三篇论文之一的《分布式计算模型》。...

作者：前端之家时间：2020-12-11

关于HDFS应知应会的N个问题 | 技术点

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如...

作者：前端之家时间：2020-12-11

必须掌握的分布式文件存储系统—HDFS

HDFS（Hadoop Distributed File System）分布式文件存储系统，主要为各类分布式计算框架如...

作者：前端之家时间：2020-12-11

Hadoop调优 | NameNode主备宕机引发的思考

Hadoop调优

作者：前端之家时间：2020-12-11

如何有效恢复误删的HDFS文件

HDFS是大数据领域比较知名的分布式存储系统，作为大数据相关从业人员，每天处理HDFS上的文...

作者：前端之家时间：2020-12-11

hadoop之Name node is in safe mode

关闭虚拟机之后重启hadoop，想要用删除之前在hdfs运行的output文件，显示： hadoop之Name ...

作者：前端之家时间：2020-12-05

linux版本的jdk1.8+hadoop2.9.2下载地址

hadoop：链接：https://pan.baidu.com/s/14AhhPYP8933tn-EfSX-i8Q 提取码：e90m...

作者：前端之家时间：2020-12-05

hadoop之运行官方实例二--WordCount

1、在hadoop-2.9.2目录下新建一个wcinput：mkdir wcinput 2、在wcinput下新建一个文件：to...

作者：前端之家时间：2020-12-05

hadoop完全分布式之rsync

rsync与scp的区别？ rsync主要用于备份和镜像，具有速度快、避免复制相同内容和支持符号链...

作者：前端之家时间：2020-12-05

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE