kafka的消息存储和生产消费模型

• 一个topic分成多个partition
• 每个partition内部消息强有序，其中的每个消息都有一个序号叫offset
• 一个partition只对应一个broker，一个broker可以管多个partition
• 消息直接写入文件,并不是存储在内存中
• 根据时间策略(默认一周)删除，而不是消费完就删除
• producer自己决定往哪个partition写消息，可以是轮询的负载均衡，或者是基于hash的
partition策略
在这里插入图片描述
• kafka里面的消息是有topic来组织的，简单的我们可以想象为一个队列，一个队列就是一个topic，然后它把每个topic又分为很多个partition，这个是为了做并行的，在每个partition里面是有序的，相当于有序的队列，其中每个消息都有个序号，比如0到12，从前面读往后面写。
• 一个partition对应一个broker，一个broker可以管多个partition，比如说，topic有6个partition，有两个broker，那每个broker就管3个partition。
• 这个partition可以很简单想象为一个文件，当数据发过来的时候它就往这个partition上面append，追加就行，kafka和很多消息系统不一样，很多消息系统是消费完了我就把它删掉，而kafka是根据时间策略删除，而不是消费完就删除，在kafka里面没有一个消费完这么个概念，只有过期这样一个概念

• consumer自己维护消费到哪个offset
• 每个consumer都有对应的group
• group内是queue消费模型
– 各个consumer消费不同的partition
– 一个消息在group内只消费一次
• 各个group各自独立消费，互不影响

在这里插入图片描述

kafka有哪些特点

消息系统的特点：生存者消费者模型，FIFO
– partition内部是FIFO的，partition之间呢不是FIFO的，当然我们可以把topic设为一个partition，这样就是严格的FIFO
高性能：单节点支持上千个客户端，百MB/s吞吐
持久性：消息直接持久化在普通磁盘上且性能好

– 直接写到磁盘里面去，就是直接append到磁盘里面去，这样的好处是直接持久话，数据不会丢，第二个好处是顺序写，然后消费数据也是顺序的读，所以持久化的同时还能保证顺序读写

分布式：数据副本冗余、流量负载均衡、可扩展

– 分布式，数据副本，也就是同一份数据可以到不同的broker上面去，也就是当一份数据，磁盘坏掉的时候，数据不会丢失，比如3个副本，就是在3个机器磁盘都坏掉的情况下数据才会丢。

很灵活：消息长时间持久化+Client维护消费状态

– 消费方式非常灵活，第一原因是消息持久化时间跨度比较长，一天或者一星期等，第二消费状态自己维护消费到哪个地方了，可以自定义消费偏移量