Flink从入门到真香(7、Sink数据输出-文件)

Source 是 Flink 程序的输入,Sink 就是 Flink 程序处理完Source后数据的输出,比如将输出写到文件、sockets、外部系统、或者仅仅是显示(在大数据生态中,很多类似的,比如Flume里也是对应的Source/Channel/Sink),Flink 提供了多种数据输出方式

跟在代码中直接写不同(比如可以在RickMap中open、close、map中直接写)他可以保存一些状态,容错重试机制等等


package com.mafei.sinktest

import org.apache.flink.api.common.serialization.SimpleStringEncoder
import org.apache.flink.core.fs.Path
import org.apache.flink.streaming.api.functions.sink.filesystem.StreamingFileSink
import org.apache.flink.streaming.api.scala.{StreamExecutionEnvironment, createTypeInformation}

case class SensorReadingTest3(id: String,timestamp: Long, temperature: Double)

object FileSink {
  def main(args: Array[String]): Unit = {
    //创建执行环境
    val env = StreamExecutionEnvironment.getExecutionEnvironment

    val inputStream= env.readTextFile("/opt/java2020_study/maven/flink1/src/main/resources/sensor.txt")
    env.setParallelism(1)

    //先转换成样例类类型
    val dataStream = inputStream
      .map(data =>{
        val arr = data.split(",")   //按照,分割数据,获取结果
        SensorReadingTest3(arr(0), arr(1).toLong,arr(2).toDouble)  //生成一个传感器类的数据,参数中传toLong和toDouble是因为默认分割后是字符串类别
      })

    dataStream.print()

    //简单的输出到txt中的方法,已被flink弃用
//    dataStream.writeAsText("/opt/java2020_study/maven/flink1/src/main/resources/sink.txt")

    //新的输出方式-推荐
    dataStream.addSink(
      StreamingFileSink.forRowFormat(
        new Path("/opt/java2020_study/maven/flink1/src/main/resources/sink2.txt"),
        new SimpleStringEncoder[SensorReadingTest3]()   //可以在括号中传入编码,默认是udf-8
      ).build()
    )

    env.execute("udf test")
  }

}

代码结构及最终输出效果:

Flink从入门到真香(7、Sink数据输出-文件)

猜你喜欢

转载自blog.51cto.com/mapengfei/2547241