MyException - 我的异常网
当前位置:我的异常网» 软件架构设计 » Spark架构及运行机制(二) - Spark作业执行过程

Spark架构及运行机制(二) - Spark作业执行过程

www.MyException.Cn  网友分享于:2013-08-11  浏览:0次
Spark架构及运行机制(2) - Spark作业执行过程
Spark程序从提交到集群到执行的过程如下图:


(1)用户编写一个Spark程序(像之前编写的WordCount程序一样),在应用程序中包含一个用户自定义的主函数,在主函数内部实现RDD创建、RDD转换、RDD存储等操作。之后用户将完整的Spark程序提交到集群,申请Spark集群资源并执行该程序。集群收到用户提交的Spark程序后,对应的Driver进程将被启动,负责响应执行用户定义的主函数。Driver进程的启动有2种方式:
    1.Driver进程在客户端启动;
    2.Master节点指定一个Worker节点启动Driver进程,来充当Driver节点的角色;

(2)Driver进程响应执行用户定义的主函数后,会与Master节点通信,通过Master节点申请执行程序所需的资源;

(3)Spark集群中所有的Worker节点都会向Master节点注册,Master节点会通过心跳检查来检查已注册的Worker节点是否存活。在收到Driver进程的资源请求后,Master节点会命令已注册的Worker节点启动Executor进程;

(4)如果Worker节点是正常的,并且Worker节点上的Executor进程启动成功,Master节点就会将这些启动的资源通知Driver进程,使Driver进程使用集群中的那些资源来并行完成该Spark程序;

(5)Driver节点根据RDD在程序中的转换和执行情况对程序进行分割。将分割后的任务发送给已经申请的多个Executor资源,每个Executor进程负责独立完成分给它的那部分任务,并将执行的结果反馈给Driver;

(6)Worker节点上运行的Executor进程是作业的真正执行者,在每个Worker节点上可以启动多个Executor进程,每个Executor单独运行在一个JVM进程中,每个计划任务则运行在Executor中的一个线程。

(7)Driver通知Client应用程序执行完成;


在上面的过程中,最重要的是如下3个步骤:


(1)第一步:生成RDD
    Spark本身对RDD的操作模式是惰性计算。在惰性计算机制中,尽管每一次算子操作都会将一个RDD转换成一个新的RDD,并且逻辑上会顺序的执行这一系列计算,但是这些RDD的操作并不是立即执行的,而是会等到出现行动算子时才触发整个RDD操作序列,将之前的所有算子操作形成一个有向无环图(Directed Acyclic Graph,DAG),每个有向无环图再触发执行一个作业(Job)。例如,WordCount程序中,只有程序执行到saveAsTextFile时,Spark才对RDD进行真正的处理,将之前的flatMap、map、reduceByKey和saveAsTextFile这些算子连成一个有向无环图,并向Spark提交该作业。
    采用惰性计算的优势:
    1.相关的操作序列可以进行连续计算,不用为存储的中间结果离散的独立分配内存空间;
    2.节省存储空间,为之后对RDD变换操作的优惠提供了条件;

(2)第二步:生成Stage
    Driver节点中的DAGSchedule实例会对有向无环图中节点间的依赖关系进行遍历,将所有操作切分为多个调度阶段(Stage);

(3)第三步:生成Task
    每个Stage需要转换成任务在集群中的Worker节点上执行,因此,由Driver节点中的TaskSchedule实例将Stage转换为Task,并提交到Worker节点的Executor进程中执行;


文章评论

代码女神横空出世
代码女神横空出世
程序员最害怕的5件事 你中招了吗?
程序员最害怕的5件事 你中招了吗?
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
中美印日四国程序员比较
中美印日四国程序员比较
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
如何成为一名黑客
如何成为一名黑客
看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
那些争议最大的编程观点
那些争议最大的编程观点
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
每天工作4小时的程序员
每天工作4小时的程序员
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
团队中“技术大拿”并非越多越好
团队中“技术大拿”并非越多越好
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
程序员眼里IE浏览器是什么样的
程序员眼里IE浏览器是什么样的
漫画:程序员的工作
漫画:程序员的工作
程序员的鄙视链
程序员的鄙视链
一个程序员的时间管理
一个程序员的时间管理
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
“肮脏的”IT工作排行榜
“肮脏的”IT工作排行榜
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
编程语言是女人
编程语言是女人
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
Java程序员必看电影
Java程序员必看电影
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
我是如何打败拖延症的
我是如何打败拖延症的
老程序员的下场
老程序员的下场
程序员应该关注的一些事儿
程序员应该关注的一些事儿
鲜为人知的编程真相
鲜为人知的编程真相
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
程序员和编码员之间的区别
程序员和编码员之间的区别
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
旅行,写作,编程
旅行,写作,编程
总结2014中国互联网十大段子
总结2014中国互联网十大段子
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
10个调试和排错的小建议
10个调试和排错的小建议
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有