MyException - 我的异常网
当前位置:我的异常网» 开源软件 » Spark - Cluster Mode概述(通译)

Spark - Cluster Mode概述(通译)

www.MyException.Cn  网友分享于:2013-12-24  浏览:0次
Spark - Cluster Mode概述(翻译)
这个文档简要的介绍下Spark是怎么样在集群模式中运行的,以方便更容易的理解其涉及到的组件。可以通过阅读 application submission guide来了解怎么样在集群中运行应用程序。

 

Components

Spark应用程序作为独立的进程集运行,它们是由 main程序(称为driver程序)中的SparkContext 对象进行协调的。
特别地,在集群上运行是,SparkContext可以与几种不同的cluster managers进行连接通信,比如Spark自己的standalone 集群管理器或者Mesos或者Yarn,这些集群管理器为应用程序分配资源。一旦连接上以后,Spark可以获取到运行在集群节点上的executors,executors是负责运行你的应用程序中计算和存储数据。然后,它把你的代码(由传递给SparkContext的JAR或者Python定义)发送给executor。最终,SparkContext发送task给executor来运行。
 

 
关于这个架构有几个有用的东西值得注意:
1. 每个application获取它自己的executor进程。在整个application运行期间,executor会一直存活,并且它以多线程的方式运行task。这有利于使各个应用之间相互隔离,这种特性体现在两方面:一是调度端(每个driver调度它自己的tasks),二是executor方面(来自于不同应用的executor运行在不同的JVM中)。然而,这也意味着数据不能在不同的Spark应用之间共享,除非把数据写到外部的存储系统。
 
2.底层的集群管理器对于Spark来说是透明的。只要Spark可以获取到executor,并且他们之间可以相互通信,那么运行Spark就是相当简单的,即使运行在也支持其他应用的集群管理器上也可以(比如:Mesos/YARN)
 
3. driver程序在其整个存活期间必须监听并且接受来自它的executor的连接(比如:请参见 spark.driver.port in the network config section )。因此,driver程序必须与worker节点中的网络是可连接的。
 
4. 因为driver在集群上调度任务,所以,它应该运行在与worker节点较近的地方,最好是同一个局域网内。如果你想要发送请求到远处的集群,最好给driver开启RPC协议让其在节点附近提交操作,而不是让driver在离工作节点很远的地方运行。

 

Cluster Manager Types

Spark现在直接支持3种集群管理器:
  • Standalone  Spark内部的一个简单的集群管理器,它使设置群变得很简单。
  • Apache Mesos – 一个通用的集群管理器,它可以运行Hadoop MapReduce和服务应用(service applications)
  • Hadoop YARN – 在Hadoop 2 中的集群管理器。
  • Kubernetes (experimental) – 以上之外的集群管理器,对于Kubernetes也有丰富的支持。Kubernetes是一个开源的提供容器化结构的平台。Kubernetes的支持是在  apache-spark-on-k8s Github组织内积极开发的。相关的文档,请阅读那个项目的README。
 

Submitting Applications

Applications可以使用 spark-submit 脚本提交到任意类型的集群上。 application submission guide描述了怎么样来提交任务。
 

Job Scheduling

Spark将在跨应用程序(在集群管理器的级别)和应用程序内(如果在同一个SparkContext上运行多个计算)中,对资源分配进行控制。  job scheduling overview 更加详细的描述了这个特性。

 

Glossary(术语)

术语项
含义
Application
基于Spark的用户程序。由driver和executor组成。
Application Jar
包含用户Spark程序的Jar包。在某些场景下,用户可能想创建“Uber jar”,它同时包含用户的应用程序和它的依赖。用户的Jar绝对不要包含Hadoop和Spark的类库。但是这些将会在运行时被加载。
Driver program
运行应用程序的main()函数并创建SparkContext的进程
Cluster manager
在集群上获取资源的外部程序。(比如: standalone manager, Mesos, YARN )
Deploy mode
它用来区分应用程序运行在哪里。在“cluster”模式中,框架在集群中运行driver,在“client”模式中,提交者在集群之外运行driver。
Worker node
集群中任何可以运行应用程序代码的节点
Executor 运行与工作节点之上的应用程序进程,他们执行task并且把数据保存在内存中或者磁盘存储中。每个应用有它自己的executor。
Task
被发送给一个executor的最小的工作单元。
Job
可以引起Spark action的返回的由多个tasks组成的并行的计算(比如:save,collect)。你可以在driver的log中看到这个词的使用。
Stage

每个job被切分成小的任务集,这些小的任务集叫做stages,并且他们之间相互依赖(类似于MapReduce中的map和redu

ce阶段)。你可以在driver的log中看到这个词的使用。

 

文章评论

看13位CEO、创始人和高管如何提高工作效率
看13位CEO、创始人和高管如何提高工作效率
Web开发者需具备的8个好习惯
Web开发者需具备的8个好习惯
5款最佳正则表达式编辑调试器
5款最佳正则表达式编辑调试器
科技史上最臭名昭著的13大罪犯
科技史上最臭名昭著的13大罪犯
程序员的鄙视链
程序员的鄙视链
为什么程序员都是夜猫子
为什么程序员都是夜猫子
每天工作4小时的程序员
每天工作4小时的程序员
“懒”出效率是程序员的美德
“懒”出效率是程序员的美德
Java程序员必看电影
Java程序员必看电影
旅行,写作,编程
旅行,写作,编程
2013年中国软件开发者薪资调查报告
2013年中国软件开发者薪资调查报告
Java 与 .NET 的平台发展之争
Java 与 .NET 的平台发展之争
如何区分一个程序员是“老手“还是“新手“?
如何区分一个程序员是“老手“还是“新手“?
那些性感的让人尖叫的程序员
那些性感的让人尖叫的程序员
10个帮程序员减压放松的网站
10个帮程序员减压放松的网站
如何成为一名黑客
如何成为一名黑客
60个开发者不容错过的免费资源库
60个开发者不容错过的免费资源库
我跳槽是因为他们的显示器更大
我跳槽是因为他们的显示器更大
10个调试和排错的小建议
10个调试和排错的小建议
当下全球最炙手可热的八位少年创业者
当下全球最炙手可热的八位少年创业者
编程语言是女人
编程语言是女人
Google伦敦新总部 犹如星级庄园
Google伦敦新总部 犹如星级庄园
程序员和编码员之间的区别
程序员和编码员之间的区别
老美怎么看待阿里赴美上市
老美怎么看待阿里赴美上市
为啥Android手机总会越用越慢?
为啥Android手机总会越用越慢?
要嫁就嫁程序猿—钱多话少死的早
要嫁就嫁程序猿—钱多话少死的早
一个程序员的时间管理
一个程序员的时间管理
不懂技术不要对懂技术的人说这很容易实现
不懂技术不要对懂技术的人说这很容易实现
程序员的一天:一寸光阴一寸金
程序员的一天:一寸光阴一寸金
程序员都该阅读的书
程序员都该阅读的书
老程序员的下场
老程序员的下场
聊聊HTTPS和SSL/TLS协议
聊聊HTTPS和SSL/TLS协议
做程序猿的老婆应该注意的一些事情
做程序猿的老婆应该注意的一些事情
中美印日四国程序员比较
中美印日四国程序员比较
十大编程算法助程序员走上高手之路
十大编程算法助程序员走上高手之路
总结2014中国互联网十大段子
总结2014中国互联网十大段子
写给自己也写给你 自己到底该何去何从
写给自己也写给你 自己到底该何去何从
什么才是优秀的用户界面设计
什么才是优秀的用户界面设计
漫画:程序员的工作
漫画:程序员的工作
代码女神横空出世
代码女神横空出世
亲爱的项目经理,我恨你
亲爱的项目经理,我恨你
程序猿的崛起——Growth Hacker
程序猿的崛起——Growth Hacker
程序员应该关注的一些事儿
程序员应该关注的一些事儿
2013年美国开发者薪资调查报告
2013年美国开发者薪资调查报告
Web开发人员为什么越来越懒了?
Web开发人员为什么越来越懒了?
初级 vs 高级开发者 哪个性价比更高?
初级 vs 高级开发者 哪个性价比更高?
程序员必看的十大电影
程序员必看的十大电影
我的丈夫是个程序员
我的丈夫是个程序员
 程序员的样子
程序员的样子
软件开发程序错误异常ExceptionCopyright © 2009-2015 MyException 版权所有