sparkstreaming消费多个topic的数据写入不同的hive表 - 代码天地

sparkstreaming消费多个topic的数据写入不同的hive表

其他 2021-01-23 10:14:06 阅读次数: 0

这几天有人问关于怎么把不同的topic的数据写入到hive的不同的表里,我写了一个简单的demo,大家可以参考一下,

package hive

import java.io.File
import org.apache.kafka.clients.consumer.ConsumerRecord
import org.apache.kafka.common.serialization.StringDeserializer
import org.apache.log4j.{Level, Logger}
import org.apache.spark.sql.{Row, SparkSession}
import org.apache.spark.streaming.{Seconds, StreamingContext}
import org.apache.spark.streaming.dstream.InputDStream
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, LocationStrategies}

/**
  * spark消费多个topic的数据写入不同的hive表
  */
object SparkToHive {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.WARN)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.WARN)
    Logger.getLogger("org.apache.kafka.clients.consumer").setLevel(Level.WARN)
    val warehouseLocation = new File("hdfs://cluster/hive/warehouse").g

猜你喜欢

转载自blog.csdn.net/xianpanjia4616/article/details/90081537

sparkstreaming消费多个topic的数据写入不同的hive表

sparkstreaming同时消费多个topic的数据实现exactly-once的语义

kafka confluent schema registry 实现一个topic支持多个不同schema的表消费（包含报错信息及解决方式）

kafka多个consumer只消费topic数据一次

SparkStreaming消费kafka数据

SparkStreaming写入Hive遇到的问题记录

flink 消费kafka （exactly-once），动态感知topic,partition, 消费多个topic，区分数据来源 API

将多个txt文本写入excel的不同sheet表中

kafka消费者多个topic配置

sparkstreaming写入hbase表中总结

spark写入hive表

kafka多个消费者同时消费topic中的消息

spark streaming 接收kafka数据写入Hive分区表

SparkStreaming消费kafka中数据的方式

sparkstreaming数据丢失和重复消费问题

从任意hive单表读取并计算数据写入任意mysql单表的hive工具

flume的sink写入hive表

将多个csv文件写入同一个excel中的不同sheet表中

Pandas 多个df写入一个excel不同的表中

kafka查看topic数据消费情况

spark streaming kafka消费多个topic时不执行的问题

多个table表不同数据切换 easyui中

Filebeat 将多个日志输出到不同的 Kafka Topic

代码 | Spark读取mongoDB数据写入Hive普通表和分区表

把SparkStreaming版本的wordcount写入mysql数据库

Kafka多个消费者监听消费同一个Topic主题

hcatalog读取hive数据并写入hive

【sparkStreaming】kafka作为数据源的生产和消费

SparkStreaming消费Kafka数据kafkaRDD转DataSet的小问题

电影推荐系统项目 SparkStreaming实时消费Kafka数据(十一)

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)