设计Kafka的High Level Consumer

原文:https://cwiki.apache.org/confluence/display/KAFKA/Consumer+Group+Example

为什么使用High Level Consumer

  1. 在某些应用场景,我们希望通过多线程读取消息,而我们并不关心从Kafka消费消息的顺序,我们仅仅关心数据能被消费就行。High Level 就是用于抽象这类消费动作的。

  2. 消息消费已Consumer Group为单位,每个Consumer Group中可以有多个consumer,每个consumer是一个线程,topic的每个partition同时只能被某一个consumer读 取,Consumer Group对应的每个partition都有一个最新的offset的值,存储在zookeeper上的。所以不会出现重复消费的情况。

  3. 因为consumer的offerset并不是实时的传送到zookeeper(通过配置来制定更新周期),所以Consumer如果突然Crash,有可能会读取重复的信息

设计High Level Consumer

High Level Consumer 可以并且应该被使用在多线程的环境,线程模型中线程的数量(也代表group中consumer的数量)和topic的partition数量有关,下面列举一些规则:

  1. 当提供的线程数量多于partition的数量,则部分线程将不会接收到消息;
  2. 当提供的线程数量少于partition的数量,则部分线程将从多个partition接收消息;
  3. 当某个线程从多个partition接收消息时,不保证接收消息的顺序;可能出现从partition3接收5条消息,从partition4接收6条消息,接着又从partition3接收10条消息;
  4. 当添加更多线程时,会引起kafka做re-balance, 可能改变partition和线程的对应关系。
  5. 因为突然停止Consumer以及Broker会导致消息重复读的情况,为了避免这种情况在shutdown之前通过Thread.sleep(10000)让Consumer有时间将offset同步到zookeeper

例子

Maven依赖

[html]  view plain  copy
  1. <!--Kafka 消息依赖-->  
  2.   <dependency>  
  3.       <groupId>org.apache.kafka</groupId>  
  4.       <artifactId>kafka_2.10</artifactId>  
  5.       <version>0.8.2.0</version>  
  6.   </dependency>  
  7.   <dependency>  
  8.       <groupId>org.apache.kafka</groupId>  
  9.       <artifactId>kafka-clients</artifactId>  
  10.       <version>0.8.2.0</version>  
  11.   </dependency>  


Consumer 线程


[java]  view plain  copy
  1. import kafka.consumer.ConsumerIterator;  
  2. import kafka.consumer.KafkaStream;  
  3. import kafka.message.MessageAndMetadata;  
  4.   
  5. public class ConsumerThread implements Runnable {  
  6.  private KafkaStream kafkaStream;  
  7.  //线程编号  
  8.  private int threadNumber;  
  9.  public ConsumerThread(KafkaStream kafkaStream, int threadNumber) {  
  10.   this.threadNumber = threadNumber;  
  11.   this.kafkaStream = kafkaStream;  
  12.  }  
  13.  public void run() {  
  14.   ConsumerIterator<byte[], byte[]> it = kafkaStream.iterator();  
  15.   StringBuffer sb = new StringBuffer();  
  16. //该循环会持续从Kafka读取数据,直到手工的将进程进行中断  
  17.   while (it.hasNext()) {  
  18.    MessageAndMetadata metaData = it.next();  
  19.    sb.append("Thread: " + threadNumber + " ");  
  20.    sb.append("Part: " + metaData.partition() + " ");  
  21.    sb.append("Key: " + metaData.key() + " ");  
  22.    sb.append("Message: " + metaData.message() + " ");  
  23.    sb.append("\n");  
  24.    System.out.println(sb.toString());  
  25.   }  
  26.   System.out.println("Shutting down Thread: " + threadNumber);  
  27.  }  
  28. }  


其余程序


[java]  view plain  copy
  1. import kafka.consumer.ConsumerConfig;  
  2. import kafka.consumer.KafkaStream;  
  3. import kafka.javaapi.consumer.ConsumerConnector;  
  4.    
  5. import java.util.HashMap;  
  6. import java.util.List;  
  7. import java.util.Map;  
  8. import java.util.Properties;  
  9. import java.util.concurrent.ExecutorService;  
  10. import java.util.concurrent.Executors;  
  11.    
  12. public class ConsumerGroupExample {  
  13.     private final ConsumerConnector consumer;  
  14.     private final String topic;  
  15.     private  ExecutorService executor;  
  16.    
  17.     public ConsumerGroupExample(String a_zookeeper, String a_groupId, String a_topic) {  
  18.         consumer = kafka.consumer.Consumer.createJavaConsumerConnector(  
  19.                 createConsumerConfig(a_zookeeper, a_groupId));  
  20.         this.topic = a_topic;  
  21.     }  
  22.    
  23.     public void shutdown() {  
  24.         if (consumer != null) consumer.shutdown();  
  25.         if (executor != null) executor.shutdown();  
  26.     }  
  27.    
  28.     public void run(int a_numThreads) {  
  29.         Map<String, Integer> topicCountMap = new HashMap<String, Integer>();  
  30.         topicCountMap.put(topic, new Integer(a_numThreads));  
  31.         //返回的Map包含所有的Topic以及对应的KafkaStream  
  32.         Map<String, List<KafkaStream<byte[], byte[]>>> consumerMap = consumer.createMessageStreams(topicCountMap);  
  33.         List<KafkaStream<byte[], byte[]>> streams = consumerMap.get(topic);  
  34.    
  35.         //创建Java线程池  
  36.         executor = Executors.newFixedThreadPool(a_numThreads);  
  37.    
  38.         // 创建 consume 线程消费messages  
  39.         int threadNumber = 0;  
  40.         for (final KafkaStream stream : streams) {  
  41.             executor.submit(new ConsumerTest(stream, threadNumber));  
  42.             threadNumber++;  
  43.         }  
  44.     }  
  45.    
  46.     private static ConsumerConfig createConsumerConfig(String a_zookeeper, String a_groupId) {  
  47.         Properties props = new Properties();  
  48.         //指定连接的Zookeeper集群,通过该集群来存储连接到某个Partition的Consumer的Offerset  
  49.         props.put("zookeeper.connect", a_zookeeper);  
  50.        //consumer group 的ID  
  51.         props.put("group.id", a_groupId);  
  52.         //Kafka等待Zookeeper的响应时间(毫秒)  
  53.         props.put("zookeeper.session.timeout.ms""400");  
  54.        //ZooKeeper 的‘follower’可以落后Master多少毫秒  
  55.         props.put("zookeeper.sync.time.ms""200");  
  56.       //consumer更新offerset到Zookeeper的时间  
  57.         props.put("auto.commit.interval.ms""1000");  
  58.    
  59.         return new ConsumerConfig(props);  
  60.     }  
  61.    
  62.     public static void main(String[] args) {  
  63.         String zooKeeper = args[0];  
  64.         String groupId = args[1];  
  65.         String topic = args[2];  
  66.         int threads = Integer.parseInt(args[3]);  
  67.    
  68.         ConsumerGroupExample example = new ConsumerGroupExample(zooKeeper, groupId, topic);  
  69.         example.run(threads);  
  70.          //因为consumer的offerset并不是实时的传送到zookeeper(通过配置来制定更新周期),所以shutdown Consumer的线程,有可能会读取重复的信息  
  71.         //增加sleep时间,让consumer把offset同步到zookeeper  
  72.         try {  
  73.             Thread.sleep(10000);  
  74.         } catch (InterruptedException ie) {  
  75.    
  76.         }  
  77.         example.shutdown();  
  78.     }  
  79. }  

猜你喜欢

转载自blog.csdn.net/matrix_google/article/details/80091128