Spark的架构中的基本组件。

·ClusterManager:在Standalone模式中即为Master(主节点),控制整个集群,监控
Worker。 在YARN模式中为资源管理器。
·Worker:从节点,负责控制计算节点,启动Executor或Driver。 在YARN模式中为
NodeManager,负责计算节点的控制。
·Driver:运行Application的main()函数并创建SparkContext。
·Executor:执行器,在worker node上执行任务的组件、 用于启动线程池运行任务。 每
个Application拥有独立的一组Executors。
·SparkContext:整个应用的上下文,控制应用的生命周期。
·RDD:Spark的基本计算单元,一组RDD可形成执行的有向无环图RDD Graph。
·DAG Scheduler:根据作业(Job)构建基于Stage的DAG,并提交Stage给
TaskScheduler。
·TaskScheduler:将任务(Task)分发给Executor执行。
·SparkEnv:线程级别的上下文,存储运行时的重要组件的引用。
SparkEnv内创建并包含如下一些重要组件的引用。
·MapOutPutTracker:负责Shuffle元信息的存储。·BroadcastManager:负责广播变量的控制与元信息的存储。
·BlockManager:负责存储管理、 创建和查找块。
·MetricsSystem:监控运行时性能指标信息。
·SparkConf:负责存储配置信息。

发布了29 篇原创文章 · 获赞 4 · 访问量 6580

猜你喜欢

转载自blog.csdn.net/qq_42913729/article/details/81562681
今日推荐