pyspark 包介绍

子包

内容

PySpark是针对Spark的Python API。根据网上提供的资料，现在汇总一下这些类的基本用法，并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。

Public 类们:

:

功能的主入口。

:

:

:

增加值。

:

:

文件。

:

(loadDefaults=True,_jvm=None,_jconf=None): 配置一个Spark应用，一般用来设置各种Spark的键值对作为参数。
大多数时候，使用来创建SparkConf对象，也用于载入来自spark.* Java系统的属性值。此时，在对象上设置的任何参数都有高于系统属性的优先级。

对于单元测试，也能调用来略过额外的配置，无论系统属性是什么都可以获得相同的配置。

这个类中的设值方法都是支持链式结构的，例如，你可以这样编写配置conf.setMaster(“local”).setAppName(“My app”)。

注意：

修改。

(key)

配置中是否包含一个指定键。

(key,defaultValue=None)

获取配置的某些键值，或者返回默认值。

()

得到所有的键值对的list。

(key,value)

设置配置属性。

(pairs)

通过传递一个键值对的list，为多个参数赋值。

(value)

设置应用名称

(key=None,value=None,pairs=None)

设置环境变量复制给执行器。

(key,value)

如果没有，则设置一个配置属性。

(value)

设置主连接地址。

(value)

设置工作节点上的Spark安装路径。

()

返回一个可打印的配置版本。

(master=None,appName=None,sparkHome=None,pyFiles=None,environment=None,batchSize=0,serializer=PickleSerializer(),conf=None,gateway=None,jsc=None,profiler_cls=) Spark功能的主入口，SparkContext 代表到Spark 集群的连接，并且在集群上能创建RDD和broadcast。 (value,accum_param=None) 用指定的初始化值创建一个累加器。使用添加数据类型的值。默认AccumulatorParams为整型和浮点型。如果其他类型需要自定义。 (path,recursive=False) 使用在每个节点上的Spark job添加文件下载。这里path 参数可以使本地文件也可以使在HDFS中的文件，也可以是HTTP、HTTPS或者URI。在Spark的job中访问文件，使用L{SparkFiles.get(fileName)}可以找到下载位置。如果递归选项被设置为“TRUE”则路径能被指定。当前路径仅仅支持Hadoop文件系统。 >>> pyspark >>> path = os.path.join(tempdir, >>> with open(path, ... _ = testFile.write( >>> >>> ... with open(SparkFiles.get( ... fileVal = ... [x * fileVal x >>> sc.parallelize([1,2,3,4 [100,200,300,400]

pyspark 内容介绍（一）

pyspark 包介绍

内容

猜你在找的Python相关文章