kafka——producer

一、工作流程

Java版本的工作流程,ProducerRecord是消息对象。

 简单描述,

1、主线程建立ProducerRecord对象,包含topic、partition、key、value、timestamp等信息

2、将ProducerRecord中的消息体(key-value),序列化后结合kafkaProducer缓存的元数据(topic分区信息数等),共同提交给partitioner

3、partitione计算出目标分区并放入缓存中对应目标分区的batch(批量思想,一批一批的发送,而不是一条一条的发送)中,这里主线程任务已经完成

4、sender线程异步发送batch信息,并接受响应,然后回调给主线程。

二、序列化

kafka默认提供多种序列化器。

ByteArraySerializer:本质什么也没做,已经是字节数组了。

ByteBufferSerializer:序列化ByteBuffer

BytesSerializer:序列化kafka自定义的Bytes类

DoubleSerializer:序列化Double类型

IntegerSerializer:序列化Integer类型

LongSerializer:序列化Long类型

StringSerializer:序列化String类型

三、分区策略

partitioner职责是确认到底要向topic的那个分区发送消息。

kafak提供默认的分区器partitioner,分区策略:

① 根据消息key的hash值确定目标分区。大多数情况下消息是没有key的,我们可以控制多条消息相同key,达到这些消息被分到同一个分区,完成一些业务需求。

② 若无key,则采用轮询的方式确定目标分区

③ 用户指定,producer的API提供了用户自定指定目标分区的功能

四、Java代码实现与参数说明

Java代码实现:配置参数key在ProducerConfig.Java中可以找到。

 1 public class ProducerTest {
 2 
 3     private static final String HOST = "192.168.1.4";
 4 
 5     public static void main(String[] args) {
 6         Properties props = new Properties();
 7         props.put("bootstrap.servers",HOST + ":9091"+","+HOST + ":9092"+","+HOST + ":9093");//指定broker,配置部分就可以了,producer会替换成实际brokers列表
 8         props.put("key.serializer","org.apache.kafka.common.serialization.StringSerializer");//key序列化类,无默认值,必须配置
 9         props.put("value.serializer","org.apache.kafka.common.serialization.StringSerializer");//value序列化类,无默认值,必须配置,可与key不同
10         props.put("acks","-1");//控制参数的持久性策略,须传入字符串参数
11         props.put("retries","3");//重试次数,默认为0
12         props.put("batch.size","16384");//一个批次大小,默认16KB,producer调优重要参数
13         props.put("linger.ms","10");//发送消息延时,默认为0,消息立即发送,不需要batch满,producer调优重要参数
14         props.put("buffer.memory","33554432");//消息缓冲区大小默认,32MB,producer调优重要参数
15         props.put("max.block.ms","3000");//等待元数据超时时间,(例如发送topic,客户端未缓存)
16         props.put("max.request.size","10485760");//请求消息的最大值,默认10MB,由于消息头开销需要比实际最大值大
17         props.put("request.timeout.ms","3000");//请求超时时间
18         try(Producer producer = new KafkaProducer(props);) {
19             producer.send(new ProducerRecord("topic-test","hello world"));
20         }
21     }
22 }

除了三个必须的参数bootstrap.servers、key.serializer、value.serializer外另外必须清楚acks配置的作用

acks:参数用于控制producer生产消息的持久化级别。

acks = -1或all :消息发送时,producer需要等待leader broker的响应,而leader broker需要将消息写入本地日志,同时还会等ISR中副本都成功写入日志后,才会响应,吞吐量最差,不能容忍消息丢失

acks = 0 :发送消息时,producer不需要等待leader broker的响应。吞吐量最高,但完全不担心消息是否发送成功,允许消息丢失(例如服务器日志应用)

acks = 1 :发送消息时,producer需要等待leader broker的响应,而leader broker将消息写入本地日志,就会响应,无需等待ISR中副本都成功写入日志。吞吐量适中

其中acks = 0 , acks = 1可能引起消息丢失。

五、producer拦截器

拦截器interceptor是的用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,例如修改消息,添加通用字段

接口是

//org.apache.kafka.clients.producer.ProducerInterceptor
public interface ProducerInterceptor<K, V> extends Configurable {
    //封装仅send方法中,运行在用户主线程,确保消息在序列化前调用此方法
    ProducerRecord<K, V> onSend(ProducerRecord<K, V> var1);
    //回调逻辑触发前,运行在producer I/O线程(sender线程)中,不能放入过重的逻辑,会拖累消息发送效率
    void onAcknowledgement(RecordMetadata var1, Exception var2);
    //关闭拦截器,主要用于资源清理
    void close();
}

具体使用时将自定义的拦截器放入配置props的interceptor.classes.config属性中。

六、同步异步发送

新版producer的写入操作默认都是异步的。异步发送可能导致消息乱序,利用send方法返回Future对象可转化为同步发送。

           //异步发送+回调
            producer.send(new ProducerRecord("topic-test", "test1"), new Callback() {
                @Override
                public void onCompletion(RecordMetadata recordMetadata, Exception e) {
                    if (e == null){
                        System.out.println("message send success");
                    }else {
                        System.out.println("message send fail");
                    }
                }
            });
            producer.send(new ProducerRecord("topic-test", "test2"), new Callback() {
                @Override
                public void onCompletion(RecordMetadata recordMetadata, Exception e) {
                    if (e == null){
                        System.out.println("message send success");
                    }else {
                        System.out.println("message send fail");
                    }
                }
            });
            //利用future的get()方法实现同步发送
            producer.send(new ProducerRecord("topic-test", "test1")).get();
            producer.send(new ProducerRecord("topic-test", "test2")).get();

七、多线程处理

producer多线程中两种使用方法

多线程单KafkaProducer实例:所有线程共享一个KafkaProducer实例,实现简单性能好,但①共享一个内存缓冲区,需要配置更大的缓存空间;② 一旦producer实例破坏,所有用户线程无法工作

多线程多KafkaProducer实例:每个线程维护自己的专属kafkaProducer实例,配置粒度小,单个producer奔溃不会影响其他线程;但①占用更多的内存

八、无消息丢失配置

① 新版producer默认异步发送可能导致消息乱序,可采用上面同步方式发送消息,但同步方式性能很差,实际场景不推荐使用

②producer端“无消息丢失配置”

/************  product config  *****************/
block.on.buffer.full=true //缓冲区满,停止接受新消息
acks = -1 //ISR日志全部持久化
retries = Integer.MAX_VALUE //无限重试
max.in.flight.requests.per.connection=1 //防止同partition下消息乱序。单个broker仅响应一个请求
//使用带回调机制的send方法.producer.send(record,callback)
//callback逻辑中显示地立即关闭producer,使用close()
/************  broker config  *****************/
unclean.leader.election.enable=false//不允许ISR外副本竞选leader
replication.factor=3//业界通用的三备份原则
min.insync.replicas=2//写入ISR多少个副本才算成功,acks=-1才有效,实际使用,不要使用默认值
replication.factor>min.insync.replicas//两者相等会导致,一个副本挂掉,分区将无法提供服务
enable.auto.commit=false

九、旧版本producer

新旧producer主要区别:

①旧版:kafka.producer.Producer;新版:org.apache.kafka.clients.producer.KafkaProducer

②旧版默认同步发送;新版默认异步发送

③旧版:kafka-core.jar;新版;kafka-clients.jar

④新旧参数列表几乎完全不同

⑤旧版本直接与ZooKeeper通信来发送数据,新版本彻底摆脱ZooKeeper的依赖

参考《kafka实战》

猜你喜欢

转载自www.cnblogs.com/wqff-biubiu/p/12334212.html