对于Spark而言,如果大家只是想摸一下、熟悉熟悉而已,可以搭建单机的Spark,大致步骤如下(我使用VMWare下的Ubuntu 14.04,暂不考虑安全问题,在root下运行):
1、安装Ubuntu 14.04,注意装好后需要禁用防火墙(ufw disable),安装SSH 服务器,启用root用户
2、下载安装JDK-1.8、scala 2.11.8(需要和spark的jar版本配合下,这个其实不是很必要,练习用)、spark、maven(build用,这里的scala版本需要和spark的一致,否则可能出现ClassNotDef异常)
3、在.profile中配置环境变量,如:
export SPARK_HOME=/root/spark-2.2.0-bin-hadoop2.7
export SPARK_LOCAL_HOST=192.168.162.132
export SPARK_MASTER_HOST=192.168.162.132
4、启动spark:
$SPARK_HOME/sbin/start-master.sh
# 在单机情况下也必须启动,否则没有worker
$SPARK_HOME/sbin/start-slave.sh
5、使用maven编译一个示例程序(当然sbt也可以)
6、提交你的测试程序,如下:
$SPARK_HOME/spark-submit --class "类名" --master spark://IP:Port 打包文件名
另外,注意的一点是需要在/etc/hosts和/etc/hostname中正确配置主机名,否则可能出现IOException