spark介绍
spark是一套并行计算的框架,由于在计算过程中,数据在内存中传递,所有,性能要比hadoop的map/reduce在磁盘中传递的效率高很多。下边在使用hdfs的基础上,安装spark单机环境。
1.启动hadoop服务
2.安装spark程序包
3.启动spark服务器
启动hadoop服务
如过尚未安装hadoop,请参考hadoop安装文档
cd $HADOOP_HOME/sbin
./start-all.sh
jps
显示信息如下:
hadoop@hzwy23:/opt/hadoop-@H_403_32@2.7.@H_403_32@3/sbin$ jps
@H_403_32@7601 Jps
@H_403_32@6487 SecondaryNameNode
@H_403_32@7482 NodeManager
@H_403_32@4747 NameNode
@H_403_32@5565 Datanode
@H_403_32@6655 ResourceManager
hadoop@hzwy23:/opt/hadoop-@H_403_32@2.7.@H_403_32@3/sbin$
表明hadoop 已经启动成功。
安装spark程序包
spark下载地址官方下载链接
根据hadoop版本,选择对应的spark二进制包。如果下载的是spark源代码,需要安装编译环境,在这里以入门环境搭建为目标,所以,直接下载spark二进制包。
将下载好的压缩包解压到/opt目录中,如下边所示:
hadoop@hzwy23:/opt/spark-@H_403_32@2.1.@H_403_32@0-bin-hadoop2.@H_403_32@7$ ls
bin conf data derby.log examples jars LICENSE licenses logs Metastore_db NOTICE python R README.md RELEASE sbin work yarn
hadoop@hzwy23:/opt/spark-@H_403_32@2.1.@H_403_32@0-bin-hadoop2.@H_403_32@7$ pwd
/opt/spark-@H_403_32@2.1.@H_403_32@0-bin-hadoop2.@H_403_32@7
hadoop@hzwy23:/opt/spark-@H_403_32@2.1.@H_403_32@0-bin-hadoop2.@H_403_32@7$
接着设置spark环境变量,修改 ~/.profile 配置文件,在后边添加下面信息
export SPARK_HOME=/opt/spark-@H_403_32@2.1.@H_403_32@0-bin-hadoop2.@H_403_32@7
export PATH=$PATH:$SPARK_HOME/bin
接着执行source命令,使环境变量生效:
source ~/.profile
到此,spark单机版已经安装完成
启动spark服务
cd $SPARK_HOME/sbin
./start-all.sh
接着查看spark在jvm中的进程信息:
hadoop@hzwy23:/opt/spark-@H_403_32@2.1.@H_403_32@0-bin-hadoop2.@H_403_32@7/sbin$ jps
@H_403_32@8800 Jps
@H_403_32@8710 Worker
@H_403_32@6487 SecondaryNameNode
@H_403_32@7482 NodeManager
@H_403_32@4747 NameNode
@H_403_32@5565 Datanode
@H_403_32@7917 Master
@H_403_32@6655 ResourceManager
上边显示Master、Worker进程已经启动,表示spark已经成功启动。
spark管理页面地址:http://127.0.0.1:8080
cd $SPARK_HOME/bin
./run-example SparkPi @H_403_32@10
结果如下图所示:
上边过程,完成了spark的单机模式测试换进搭建,进攻入门学习参考,大数据,需要通过 数据爬取 – 业务建模 – 数据分析 等等。现在已经打开了spark的入口,后续的将继续完善大数据实践过程。