Spark大型电商项目博客文章索引

在看自己写的文章的时候,总是不能很快找到需要的的文章,几次痛苦经历后,决定将系统性的文章手动建立一个博文目录,快速定位文章,方便查阅。

目录

广告点击流量实时统计

页面单跳转化率

用户访问session分析

大数据环境搭建


广告点击流量实时统计

127.Spark大型电商项目-Spark Streaming+Kafka调试之Hive在spark2.0.0启动时无法访问spark-assembly-*.jar的解决办法

126.Spark大型电商项目-Spark Streaming+Kafka调试之war出错

125.Spark大型电商项目-Spark Streaming+Kafka调试之Kafka errors NotLeaderForPartitionException, TimeoutExceptio

124.Spark大型电商项目-Spark Streaming+Kafka调试之java.lang.NumberFormatException: multiple points

123.Spark大型电商项目-incompatible types Reqired javaPairRDD

扫描二维码关注公众号,回复: 11858213 查看本文章

122.Spark大型电商项目-广告点击流量实时统计-生产环境测试

121.Spark大型电商项目-广告点击流量实时统计-对实时计算程序进行性能调优

120.Spark大型电商项目-广告点击流量实时统计-实现实时计算程序的HA高可用性

119.Spark大型电商项目-广告点击流量实时统计-计算每天各广告最近1小时滑动窗口内的点击趋势

118.Spark大型电商项目-广告点击流量实时统计-计算每天各省的top3热门广告

117.Spark大型电商项目-广告点击流量实时统计-计算每天各省各城市各广告的点击量

116.Spark大型电商项目-广告点击流量实时统计-基于动态黑名单进行点击行为过滤

115.Spark大型电商项目-广告点击流量实时统计-过滤出每个batch中的黑名单用户以生成动态黑名单

114.Spark大型电商项目-广告点击流量实时统计-使用高性能方式将实时计算结果写入MySQL中

113.Spark大型电商项目-广告点击流量实时统计-为动态黑名单实时计算每天各用户对各广告的点击次数

112.Spark大型电商项目-广告点击流量实时统计-需求分析、技术方案设计以及数据设计

111.Spark大型电商项目-各区域热门商品统计-本地(生产)环境测试

110.Spark大型电商项目-各区域热门商品统计-Spark SQL数据倾斜解决方案

109.Spark大型电商项目-各区域热门商品统计-将结果数据写入MySQL中

108.Spark大型电商项目-各区域热门商品统计-使用内置case when函数给各个区域打上级别标记

107.Spark大型电商项目-各区域热门商品统计-使用开窗函数统计各区域的top3热门商品

106.Spark大型电商项目-各区域热门商品统计-关联商品信息并使用自定义get_json_object()

105.Spark大型电商项目-各区域热门商品统计-查询各区域各商品的点击次数并拼接城市列表

104.Spark大型电商项目-各区域热门商品统计-开发自定义UDAF聚合函数之group_concat_distinct()

103.Spark大型电商项目-各区域热门商品统计-关联城市信息以及RDD转换为DataFrame后注册临时表

102.Spark大型电商项目-各区域热门商品统计-异构数据源之从MySQL中查询城市数据

101.Spark大型电商项目-各区域热门商品统计-查询用户指定日期范围内的点击行为数据

100.Spark大型电商项目-各区域热门商品统计-需求分析、技术方案设计以及数据设计

99.Spark大型电商项目-各区域热门商品统计-模块介绍

页面单跳转化率

97.Spark大型电商项目-页面单跳转化率-生产环境测试

96.Spark大型电商项目-页面单跳转化率-本地测试

95.Spark大型电商项目-页面单跳转化率-将页面切片转化率写入MySQL

94.Spark大型电商项目-页面单跳转化率-计算页面切片的转化率

93.Spark大型电商项目-页面单跳转化率-计算页面流起始页面的pv

92.Spark大型电商项目-页面单跳转化率-页面切片生成以及页面流匹配算法实现

91.Spark大型电商项目-页面单跳转化率-编写基础代码

90.Spark大型电商项目-页面单跳转化率-需求分析、技术方案设计、数据表设计

89.Spark大型电商项目-页面单跳转化率-模块介绍

用户访问session分析

88(1).Spark大型电商项目-用户访问session分析-模块总结

88.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机数以及扩容表进行joi

87.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之sample采样倾斜key单独进行join

86.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之将reduce join转换为map join

85.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之使用随机key实现双重聚合

84.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之提高shuffle操作reduce并行度

83.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之聚合源数据以及过滤导致倾斜的key

82.Spark大型电商项目-用户访问session分析-数据倾斜解决方案之原理以及现象分析

81.Spark大型电商项目-用户访问session分析-troubleshooting之错误的持久化方式以及checkpoint的使用

80.Spark大型电商项目-用户访问session分析-troubleshooting之解决yarn-cluster模式的JVM栈内存溢出问题

79.Spark大型电商项目-用户访问session分析-troubleshooting之解决yarn-client模式导致的网卡流量激增问题

78.Spark大型电商项目-用户访问session分析-troubleshooting之解决算子函数返回NULL导致的问题

77.Spark大型电商项目-用户访问session分析-troubleshooting之解决各种序列化导致的报错

76.Spark大型电商项目-用户访问session分析-troubleshooting之解决YARN队列资源不足导致的application直接失败

75.Spark大型电商项目-用户访问session分析-troubleshooting之解决JVM GC导致的shuffle文件拉取失败

74.Spark大型电商项目-用户访问session分析-troubleshooting之控制shuffle reduce端缓冲大小以避免OOM

73.Spark大型电商项目-用户访问session分析-算子调优之reduceByKey本地聚合介绍

71.Spark大型电商项目-用户访问session分析-用户访问session分析-算子调优之使用foreachPartition优化写数据库性能

72.Spark大型电商项目-算子调优之使用repartition解决Spark SQL低并行度的性能问题

70.Spark大型电商项目-用户访问session分析-算子调优之filter过后使用coalesce减少分区数量

69.Spark大型电商项目-用户访问session分析-算子调优之MapPartitions提升Map类操作性能

68.Spark大型电商项目-用户访问session分析-Shuffle调优之HashShuffleManager与SortShuffleManager

67.Spark大型电商项目-用户访问session分析-Shuffle调优之调节map端内存缓冲与reduce端内存占比

66.Spark大型电商项目-用户访问session分析-Shuffle调优之合并map端输出文件

65.Spark大型电商项目-用户访问session分析-Shuffle调优之原理概述

64.Spark大型电商项目-用户访问session分析JVM调优之调节executor堆外内存与连接等待时长

63.Spark大型电商项目-用户访问session分析-JVM调优之原理概述以及降低cache操作的内存占比

62.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中调节数据本地化等待时长

61.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中使用fastutil优化数据格式

60.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中使用Kryo序列化

59.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中广播大变量

58.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中重构RDD架构以及RDD持久化

57.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中调节并行度

56.Spark大型电商项目-用户访问session分析-性能调优之在实际项目中分配更多资源

55.Spark大型电商项目-用户访问session分析-top10活跃session之本地测试以及阶段总结。

54.Spark大型电商项目-用户访问session分析-top10活跃session之分组取TopN算法获取top10活跃session

53.Spark大型电商项目-用户访问session分析-top10活跃session之计算top10品类被各sessoin点击的次数

52.Spark大型电商项目-用户访问session分析-top10活跃session之开发准备以及top10品类RDD生成

51.Spark大型电商项目-用户访问session分析-top10热门品类之使用Scala实现二次排序

50.Spark大型电商项目-用户访问session分析-top10热门品类之本地测试

49.Spark大型电商项目-用户访问session分析-top10热门品类之获取top10品类并写入MySQL

48.Spark大型电商项目-用户访问session分析-top10热门品类之进行二次排序

47.Spark大型电商项目-用户访问session分析-top10热门品类之自定义二次排序key

46.Spark大型电商项目-用户访问session分析-top10热门品类之join品类与点击下单支付次数

45.Spark大型电商项目-用户访问session分析-top10热门品类之计算各品类点击、下单和支付的次数

44-1.Spark大型电商项目-用户访问session分析-top10热门品类之获取session访问过的所有品类

43.Spark大型电商项目-用户访问session分析-top10热门品类之需求回顾以及实现思路分析

42.Spark大型电商项目-用户访问session分析-session随机抽取之本地测试

41.Spark大型电商项目-用户访问session分析-session随机抽取之获取抽取session的明细数据

40.Spark大型电商项目-用户访问session分析-session随机抽取之根据随机索引进行抽取

39.Spark大型电商项目-用户访问session分析-session随机抽取之按时间比例随机抽取算法实现

38.Spark大型电商项目-用户访问session分析-session随机抽取之计算每天每小时session数量

37.Spark大型电商项目-用户访问session分析-session随机抽取之实现思路分析

36.Spark大型电商项目-用户访问session分析-session聚合统计之使用Scala实现自定义Accumulator

35.Spark大型电商项目-用户访问session分析-session聚合统计之本地测试

34-2.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果可视化

34-1.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果可视化环境测试

34.Spark大型电商项目-用户访问session分析-session聚合统计之计算统计结果并写入MySQL

33.Spark大型电商项目-033.用户访问session分析-session聚合统计之重构过滤进行统计

32.Spark大型电商项目-用户访问session分析-session聚合统计之重构实现思路与重构session聚合

31.Spark大型电商项目-用户访问session分析-session聚合统计之自定义Accumulator

30.Spark大型电商项目-用户访问session分析-按筛选参数对session粒度聚合数据进行过滤

29.Spark大型电商项目-用户访问session分析-按session粒度进行数据聚合

28.Spark大型电商项目-用户访问session分析-Spark上下文构建以及模拟数据生成

27.Spark大型电商项目-用户访问session分析-JSON数据格式讲解以及fastjson介绍

26.Spark大型电商项目-用户访问session分析-工厂模式讲解以及DAOFactory开发

25.Spark大型电商项目-用户访问session分析-DAO模式讲解以及TaskDAO开发

24.Spark大型电商项目-用户访问session分析-JavaBean概念讲解

22-23.Spark大型电商项目-用户访问session分析-开发JDBC辅助组件

21.Spark大型电商项目-用户访问session分析-内部类以及匿名内部类

20.Spark大型电商项目-用户访问session分析-单例设计模式

19.Spark大型电商项目-用户访问session分析-数据库连接池原理

18.Spark大型电商项目-用户访问session分析-JDBC原理介绍以及增删改查示范

17.Spark大型电商项目-用户访问session分析-开发配置管理组件

16.Spark大型电商项目-用户访问session分析-Idea工程搭建以及工具类说明

15.Spark大型电商项目-用户访问session分析-数据表设计

14.Spark大型电商项目-用户访问session分析-技术方案设计

13.Spark大型电商项目-用户访问session分析-需求分析

12.Spark大型电商项目-用户访问session分析-基础数据结构以及大数据平台架构介绍

11.Spark大型电商项目-用户访问session分析-模块介绍

大数据环境搭建

10.Spark大型电商项目-大实时数据采集流程介绍

9.Spark大型电商项目-离线日志采集流程介绍

8.Spark大型电商项目-大数据环境搭建之Spark集群安装

7.Spark大型电商项目-大数据环境搭建之flume安装

6.Spark大型电商项目-大数据环境搭建之kafka集群

5.Spark大型电商项目-大数据环境搭建之zookeeper集群

4.Spark大型电商项目-大数据环境搭建之数据仓库hive安装

3.Spark大型电商项目-大数据环境搭建之-Hadoop(CDH)集群搭建

2.Spark大型电商项目-大数据环境搭建之CentOS 6.4集群

1.Spark大型电商项目-电商用户行为分析简介

猜你喜欢

转载自blog.csdn.net/someby/article/details/98461419