3 大数据实战系列-spark shell分析日志 - 代码天地

3 大数据实战系列-spark shell分析日志

其他 2018-05-30 07:47:30 阅读次数: 1

1 准备数据源

文件格式：
访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击URL
数据文件越大越好，至少100万行

2 启动任务

./spark-shell --master spark://shulaibao2:7077 --executor-memory 512m --driver-memory 4540m

内存根据服务器内存大小

3 执行任务

加载hdfs数据源到SparkContext->HaddopRDD

val rdd1 = sc.textFile("hdfs://shulaibao2:9010/home/hadoop/upload/test/sougou/SogouQ1.txt")

MappedRDD->FilterRdd

val rdd1 = sc.textFile("hdfs://shulaibao2:9010/home/hadoop/upload/test/sougou/SogouQ1.txt")
 val rdd2=rdd1.map(_.split("\t")).filter(_.length==6)

数据结构： Array[Array[String]] = Array(Array(20111230000005, 57375476989eea12893c0c3811607bcf, wolf, 1, 1, http://www.qiyi.com/), Array(20111230000005, 66c5bb7774e31d0a22278249b26bc83a, json, 3, 1, http://www.booksky.org/BookDetail.aspx?BookID=1050804&Level=1))

Shuffle

val rdd3 = rdd2.map(x=>(x(1),1))

**数据结构：**Array（[(String, Int)]）,数组从0开始索引，Tupple从1开始索引
Array：array（0）元素同类型元素值可变
List：list（1）元素同类型元素值不可变
Tupple：t._1 元素可不同类型元素值不可变

Val rdd4 = rdd3.reduceByKey(_+_).map(x=>(x._2,x._1)). sortByKey(false).map(x=>(x._2,x._1))

保存结果

rdd4.saveAsTextFile("hdfs://shulaibao2:9010/home/hadoop/upload/test/sougou/result1.out")
hadoop fs -ls /home/hadoop/upload/test/sougou

合并节点

hdfs dfs -getmerge hdfs://shulaibao2:9010/home/hadoop/upload/test/sougou/result1.out /home/hadoop/result1.out

猜你喜欢

转载自blog.csdn.net/wolfjson/article/details/78141731

3 大数据实战系列-spark shell分析日志

2 大数据实战系列-spark shell wordcount

Python3实战Spark大数据分析及调度

Python3实战spark大数据分析及调度 ☝☝☝

Spark3大数据实时处理-Streaming+Structured Streaming 实战

spark快速大数据分析（3）

Python3实战Spark大数据分析及调度（网盘分享）

Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

Hadoop 大数据实战手册学习-3

5 大数据实战-hive实战分析

实战案例：医疗临床大数据实时流日志分析

大数据实战项目之---搜狗用户日志分析系统

【大数据实战】：知乎百万用户分析

大数据实时分析利器ClickHouse实战

《Spark快速大数据分析》总结--（3）

大数据实时计算Spark学习笔记（3）—— Spak Maven 编译插件

大数据系列（3）Shell命令操作HDFS

AWS 大数据实战 Lab3 - 数据可视化(四)

大数据实战——微博舆情大数据分析

【若泽大数据实战第九天】Yarn伪分布式部署及log日志分析

收集、分析线上日志数据实战——ELK

Spark SQL 笔记(13)——实战网站日志分析（3）按照流量统计TopN

Spark SQL 笔记(12)——实战网站日志分析（3）按照地市统计结果

【黑马2023大数据实战教程】使用3台虚拟机搭建大数据集群详细步骤

基于Hadoop开发的大数据实战项目——电商日志分享系统

大数据实战数据统计分析方法

大数据日志分析Hadoop项目实战

3、Crash日志分析

1 大数据实战系列-spark+hadoop集成环境搭建

大数据实战项目------中国移动运营分析实时监控平台 || 项目背景

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)