频道导航

Spark集群和任务执行

2020-12-11 Spark 前端之家

前端之家收集整理的这篇文章主要介绍了Spark集群和任务执行，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

@H_404_1@【前言：承接《Spark通识》篇】

Spark集群组件

@H_404_1@Spark是典型的Master/Slave架构，集群主要包括以下4个组件：

@H_404_1@Driver：Spark框架中的驱动器，运行用户编写Application 的main()函数。类比于MapReduce的MRAppmaster

@H_404_1@Master：主节点，控制整个集群，监控worker。在Yarn模式中为全局资源管理器

@H_404_1@Worker：从节点，负责控制计算节点，启动Executor。类比Yarn中的节点资源管理器

@H_404_1@Executor：运算任务执行器，运行在worker节点上的一个进程。类似于MapReduce中的MapTask和ReduceTask

Spark基本执行流程

@H_404_1@以StandAlone运行模式为例：

@H_404_1@

@H_404_1@1. 客户端启动应用程序及Driver相关工作，向Master提交任务申请资源
@H_404_1@2. Master给Worker分配资源，通知worker启动executor

@H_404_1@3. Worker启动Executor，Worker创建ExecutorRunner线程，ExecutorRunner会启动ExecutorBackend进程，Executor和Driver进行通信（任务分发监听等）

@H_404_1@ 4. ExecutorBackend启动后向Driver的SchedulerBackend注册，SchedulerBackend将任务提交到Executor上运行5.所有Stage都完成后作业结束

笔者强调：

@H_404_1@Driver端进行的操作

@H_404_1@SparkContext构建DAG图
@H_404_1@DAGScheduler将任务划分为stage、为需要处理的分区生成TaskSet
@H_404_1@TaskScheduler进行task下发
@H_404_1@SchedulerBackend将任务提交到Executor上运行

@H_404_1@资源划分的一般规则

@H_404_1@获取所有worker上的资源
@H_404_1@按照资源大小进行排序
@H_404_1@按照排序后的顺序拿取资源

@H_404_1@轮询
@H_404_1@优先拿资源多的

@H_404_1@Spark不同运行模式任务调度器是不同的，如Yarn模式：yarn-cluster模式为YarnClusterScheduler，yarn-client模式为YarnClientClusterScheduler

@H_404_1@关注微信公众号：大数据学习与分享，获取更对技术干货

上一篇：Spark SQL | 目前Spark社区最活跃的下一篇：Spark闭包 | driver & executo

猜你在找的Spark相关文章

实时统计每天pv,uv的sparkStreaming结合redis结果存入mysql供前端展示

SparkStreaming实时消费kafka数据，结合redis实时统计pv,uv，结果保存到mysql。

作者：前端之家时间：2021-01-07

Spark RDD详解 | RDD特性、lineage、缓存、checkpoint、依赖关系

RDD（Resilient Distributed Datasets）弹性的分布式数据集，又称Spark core，它代表一个只...

作者：前端之家时间：2020-12-11

聊聊Spark的分区、并行度 —— 前奏篇

聊聊Spark的分区机制，以及通过spark.default.parallelism谈Spark并行度

作者：前端之家时间：2020-12-11

重要 | Spark分区并行度决定机制

最近经常有小伙伴留言，核心问题都比较类似，就是虽然接触Spark有一段时间了，但是搞不明白...

作者：前端之家时间：2020-12-11

Spark SQL | 目前Spark社区最活跃的组件之一

Spark SQL是一个用来处理结构化数据的Spark组件，前身是shark，但是shark过多的依赖于hive...

作者：前端之家时间：2020-12-11

Spark闭包 | driver & executor程序代码执行

Spark闭包 | driver & executor程序代码执行 ==> 编写的Spark程序代码，运行在driv...

作者：前端之家时间：2020-12-11

Spark为什么只有在调用action时才会触发任务执行呢（附算子优化和使用示例）？

Spark算子主要划分为两类：transformation和action，并且只有action算子触发的时候才会真正...

作者：前端之家时间：2020-12-11

必须掌握的Spark调优技术点

在利用Spark处理数据时，如果数据量不大，那么Spark的默认配置基本就能满足实际的业务场景...

作者：前端之家时间：2020-12-11

对Spark硬件配置的建议

对于Spark开发人员来说，一个比较普遍的问题就是如何合理的配置Spark的硬件？当然如何合理...

作者：前端之家时间：2020-12-11

Spark核心组件通识概览

Apache Spark是一种快速、通用、可扩展、可容错的、基于内存迭代计算的大数据分析引擎。首...

作者：前端之家时间：2020-12-11

编程分类

区块链大数据图像处理 DevOps Kafka Spark Dubbo

最新文章

热门标签更多 ►