大数据学习整理篇（八）Zeppelin连接Spark - 代码天地

大数据学习整理篇（八）Zeppelin连接Spark

其他 2021-02-01 00:18:14 阅读次数: 0

Zeppelin单独1.5g的版本自带了Spark，所以可以使用local方式直接连接自带的spark。然后可以嵌入scala语言，进行数据统计，如下图所示：

新建一个note，Interpreter选择spark

可以将下列语句直接带入到一个paragraph中，如下图所示：

下面的代码来自（https://blog.csdn.net/majianxiong_lzu/article/details/89761187）

import org.apache.commons.io.IOUtils
import java.net.URL
import java.nio.charset.Charset

// Zeppelin creates and injects sc (SparkContext) and sqlContext (HiveContext or SqlContext)
// So you don't need create them manually

// load bank data
val bankText = sc.parallelize(
    IOUtils.toString(
        new URL("https://s3.amazonaws.com/apache-zeppelin/tutorial/bank/bank.csv"),
        Charset.forName("utf8")).split("\n"))

case class Bank(age: Integer, job: String, marital: String, education: String, balance: Integer)

val bank = bankText.map(s => s.split(";")).filter(s => s(0) != "\"age\"").map(
    s => Bank(s(0).toInt, 
            s(1).replaceAll("\"", ""),
            s(2).replaceAll("\"", ""),
            s(3).replaceAll("\"", ""),
            s(5).replaceAll("\"", "").toInt
        )
).toDF()
bank.registerTempTable("bank")

运行后，在新的paragraph，运行类似SQL语句，如下图所示，能看到具体结果

%sql
select age,count(1) value from bank where age<30 group by age order by age

猜你喜欢

转载自blog.csdn.net/penker_zhao/article/details/108346706

大数据学习整理篇（八）Zeppelin连接Spark

大数据学习整理篇（十一）spark和Hbase大数据Docker文件的迁移（成功版）

大数据学习整理篇（六）CentOS 7.8搭建Zeppelin 0.9.0-preview2最新版，并使用phoenix访问hbase

大数据交互分析软件-Zeppelin学习大全

大数据学习整理篇（十二）spark和Hbase在Docker不同主机环境和同主机下的简单应用

大数据学习整理篇（九）idea创建可以使用scala和java在spark运行的示例

spark大数据的学习

大数据学习整理篇（七）Linux下使用Docker搭建Spark多节点，Phoenix单机版，然后使用Spark访问Phoenix(java示例成功版）

大数据学习整理篇（三）Ubuntu 16.04 Server版安装Kudu,Impala,Spark 2.3.4,以及Scala语言使用Spark RDD访问HBase

Spark大数据学习笔记_第6篇_flume安装

Spark大数据学习笔记_第3篇_Hive的安装

从术语到Spark，10篇必读大数据学习资源

大数据Spark学习之旅第一篇

大数据Spark学习之旅第三篇

大数据Spark学习之旅第四篇

大数据学习整理篇（十）大数据应用场景和展现方式整理

大数据学习整理篇（四）SuperSet 0.36.0降级安装

数据可视化:Zeppelin+spark

数据分析：关于zeppelin与spark

大数据学习之spark

大数据学习——spark笔记

大数据Hadoop，spark学习

Flink on Zeppelin (4) - 机器学习篇

大数据之Spark安装篇

大数据之Spark初识篇

大数据篇：集群 Spark的安装

大数据面试题——Spark篇

大数据学习路线整理

大数据学习资源整理

Apache Zeppelin系列教程第八篇——LRU算法在Apache Zeppelin中的应用

今日推荐

周排行

Sping整合ActiveMQ（五.常见错误分析）

jquery ajax发送请求实例模板

北风设计模式课程---24、迭代模式

[Luogu] 兽径管理

1030 Travel Plan （30 分）(dijkstra算法+dfs+边权)

springboot-shiro中的问题

数据访问安全代理 CASB

RocketMQ与Kafka对比

Rider 2019.3.3 发布，跨平台 .NET IDE

Ubuntu切换root su -

每日归档

更多

2025-03-17(0)

2025-03-16(0)

2025-03-15(0)

2025-03-14(0)

2025-03-13(0)

2025-03-12(0)

2025-03-11(0)

2025-03-10(0)

2025-03-09(0)

2025-03-08(0)