病人记录Spark处理 - 代码天地

病人记录Spark处理

其他 2018-11-28 14:27:13 阅读次数: 0

数据集包含百万对病人的记录：

下载记录---【http://bit.ly/1Aoywaq】-需要翻墙才可以下载

解压文件：
unzip donation.zip
继续解压文件：
unzip 'block_*.zip'
创建文件夹：
hdfs dfs -mkdir /bigdata/cz/input/linkage
上传文件：
hdfs dfs -put block_*.csv /bigdata/cz/input/linkage/

开始spark对其进行操作：

hdfs数据存储位置：

spark代码：

//拿到文件
var blocks = sc.textFile("/bigdata/cz/input/linkage")
//先取1个值看一下数据状态
val head = blocks.take(10)
//数据格式
//Array("id_1","id_2","cmp_fname_c1","cmp_fname_c2","cmp_lname_c1","cmp_lname_c2","cmp_sex","cmp_bd","cmp_bm","cmp_by","cmp_plz","is_match")

定义一个方法，测试是否出现“id_1”字符串序列，等号后面是函数体的内容

def isHeader(line:String):Boolean={
      line.contains("id_1")
     }
//调用函数,调用过滤器
head.filter(isHeader).foreach(println)
//得到数据
//"id_1","id_2","cmp_fname_c1","cmp_fname_c2","cmp_lname_c1","cmp_lname_c2","cmp_sex","cmp_bd","cmp_bm","cmp_by","cmp_plz","is_match"

//调用函数，调用非过滤器
head.filterNot(isHeader).foreach(println)
//得到数据
/*
39086,47614,1,?,1,?,1,1,1,1,1,TRUE
70031,70237,1,?,1,?,1,1,1,1,1,TRUE
84795,97439,1,?,1,?,1,1,1,1,1,TRUE
36950,42116,1,?,1,1,1,1,1,1,1,TRUE
42413,48491,1,?,1,?,1,1,1,1,1,TRUE
25965,64753,1,?,1,?,1,1,1,1,1,TRUE
49451,90407,1,?,1,?,1,1,1,1,0,TRUE
39932,40902,1,?,1,?,1,1,1,1,1,TRUE
*/

spark的强大之处来自于它的血统继承，它可以不用离开sparkShell就可以对整个数据集进行操作，先可以拿到小的数据集进行操作，之后再拿到大量的数据集进行处理。

猜你喜欢

转载自my.oschina.net/u/4009325/blog/2962270

病人记录Spark处理

Spark异常：A master URL must be set in your configuration处理记录

Spark 记录

spark记录

病人排队

spark记录（0）Spark初始

spark action记录

spark学习使用记录

spark问题记录

Spark：问题记录

spark中的bug记录

spark记录（13）SparkSQL

spark学习记录-1

spark学习记录-2

Spark及Hadoop了解记录

Spark Streaming流式处理

Spark处理框架

Spark TaskSchedulerImpl TaskSet处理

Spark处理数据倾斜

spark数据倾斜处理

Spark处理WordCount

Spark Streaming与流处理

Spark批处理WordCount

spark错误记录_spark启动not found

Spark学习记录（二）Spark集群搭建

spark学习记录（三、spark集群搭建）

spark学习记录（十一、Spark on Hive配置）

spark记录（1）spark Core之RDD

spark记录（4）spark算子之Action

spark记录（3）spark算子之Transformation

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)