【Spark开发必备技能】2-Spark生态圈 - 代码天地

【Spark开发必备技能】2-Spark生态圈

其他 2018-07-20 02:25:11 阅读次数: 0

Spark生态圈架构图

1、Spark通用性较强

Spark生态圈包含了Spark Core、Spark SQL、MLLib、GraphX、Spark Streaming和Spark Structured Streaming等组件，提供离线计算、实时计算、图形化处理和机器学习等能力，能够无缝的集成并提供一站式解决方案。

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上的
Spark SQL：提供Hive查询语言（HiveQL）以及SQL查询语言(如Mysql)与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark Core操作。
GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作
MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作
Spark Streaming：对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据。
Structured Streaming：以结构化的方式操作流式数据，能够像使用Spark SQL处理批处理一样，处理流数据。基于Event-Time，相比于SparkStreaming的Receive-Time更精确。

2、Spark适应性较强

能够读取HDFS、Cassandra和HBase等离线数据
能够读取Kafka、Flume和Kinesis等实时数据
能够以Mesos、YARN或Standalone作为资源管理器调度JOB，进行集群资源的合理分配和容错，来完成Spark应用程序的计算

3、Spark与hadoop的区别

Hadoop有两个核心模块，分布式存储模块HDFS和分布式计算模块Mapreduce
Spark本身并没有提供分布式存储能力，因此Spark的分析大多依赖于Hadoop的分布式文件系统HDFS
Hadoop的Mapreduce与Spark都可以进行数据计算，而相比于Mapreduce，Spark拥有DAG执行引擎，支持在内存中对数据进行迭代计算。官方提供的数据表明，如果数据由磁盘读取，速度是Hadoop MapReduce的10倍以上，如果数据从内存中读取，速度可以高达100多倍。
两者关系图如下：

猜你喜欢

转载自blog.csdn.net/lovechendongxing/article/details/81029799

【Spark开发必备技能】2-Spark生态圈

Spark生态圈

大数据Spark生态圈，进击Spark生态圈必备，迈向“高薪”的基石

Spark SQL 笔记(2)——Spark 生态圈和 Hadoop 生态圈对比

Spark生态圈简介

Hadoop/Spark生态圈

学习Scala 进击大数据Spark生态圈进击Spark生态圈必备视频教程

Scala进击大数据Spark生态圈，进击Spark生态圈必备，迈向“高薪”的基石

第2章 Spark及其生态圈概述

Spark生态圈之——Elasticsearch与Solr

Apache Spark 完善的生态圈

Scala 大数据Spark生态圈必备 Scala+Java混编

Spark详解（一）：Spark及其生态圈概述

Spark及生态圈概述(Spark基础篇一)

Spark生态圈概述以及Hadoop生态圈的比较

学习Scala 进击大数据Spark生态圈

Scala 学习进击大数据Spark生态圈

(视频)Scala 学习进击大数据Spark生态圈

【转载】学习Scala 进击大数据Spark生态圈

spark生态圈整体技术架构图

2-spark学习笔记-spark发展概述

一文看懂大数据的技术生态圈，Hadoop，hive，spark都有了

大数据生态圈单节点环境搭建（hadoop、hbase、spark等）

一文教你看懂大数据的技术生态圈:Hadoop,hive,spark

Spark生态圈之——MLBase分布式机器学习系统

Scala 学习进击大数据Spark生态圈----个人笔记

Hadoop生态圈-CDH5.15.1升级默认的spark版本

大数据技术生态圈Hadoop、Hive、Spark之间的关系

大数据技术生态圈：Hadoop，hive，spark区别和关系

小白亲绘思维导图，带你重游Spark生态圈!

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)