在ubuntu 16.04上搭建spark平台

前端之家收集整理的这篇文章主要介绍了在ubuntu 16.04上搭建spark平台前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。

参考链接http://dblab.xmu.edu.cn/blog/1155/
搭建环境
Ubuntu14.04以上
Hadoop 2.6.0以上
Java JDK 1.7以上
Spark 2.0.0

学习spark要先搞清楚下面的几个问题
1、清楚几个概念,什么是spark,什么时hadoop?
2、Hadoop和spark之间什么关系?
3、为什么选择spark而不是hadoop?
4、如何安装spark?
5、如何使用spark做编程计算?

针对前四个问题,在参考链接里已经说明,至于(5)则是一个需要时间来回答的问题。

先来简要说明下前1-4问题:
1、Apache Spark 是一个新兴的大数据处理通用引擎,提供了分布式的内存抽象。
2、Spark 正如其名,最大的特点就是快(Lightning-fast),可比 Hadoop MapReduce 的处理速度快 100 倍。Spark可以独立安装使用,也可以和Hadoop一起安装使用。本教程中,我们采用和Hadoop一起安装使用,这样,就可以让Spark使用HDFS存取数据。
3、hadoop本身有好多缺点,而spark则没有。此外,Spark 提供了简单易用的 API,几行代码就能实WordCount。这也就是我为什么选择学习spark而不是hadoop的原因所在。
4、如何安装spark(http://dblab.xmu.edu.cn/blog/1155/) 需要说明的是,当安装好Spark以后,里面就自带了scala环境,不需要额外安装scala Scala 是一门现代的多范式编程语言,志在以简练、优雅及类型安全的方式来表达常用编程模式。它平滑地集成了面向对象和函数语言的特性。Scala 运行于 Java 平台(JVM,Java 虚拟机),并兼容现有的 Java 程序。 Scala 是 Spark 的主要编程语言,如果仅仅是写 Spark 应用,并非一定要用 Scala,用 Java、Python 都是可以的。使用 Scala 的优势是开发效率更高,代码更精简,并且可以通过 Spark Shell 进行交互式实时查询,方便排查问题。 可以在spark的安装目录中启动spark-shell ./bin/spark-shell 可以在启动后使用”:quit”或者ctrl+D退出spark-shell。

猜你在找的Ubuntu相关文章