消息中间件kafka

Posted on 2022-09-10 Edited on 2023-09-08 In kafka Views:

微服务之间异步通信通常会使用消息队列中间件，kafka是范围比较广的。

Kafka基础概念

Kafka的使用场景：

数据通道和消息系统
数据分析场景，在报表中数据分析

例如：

对页面访问量PV、页面曝光、页面点击等行为事件分析
实时计算中的Kafka Source，Dataflow Pipeline
业务的消息系统，通过发布订阅消息解耦多组微服务，消除峰值

Kafka是一种分布式的，基于发布、订阅的消息系统。设计目标如下：

以时间复杂度O（1）的方式提供消息持久化能力，顺序写，顺序消费，即使对TB级以上数据也能保持常数时间复杂度的访问性能；
高吞度，单机10w/s；
支持Kafka Server间的消息分区，及分布式消费，同时保证每个Partition内的顺序传输；
同时支持离线数据处理和实时数据处理；
Scale out：支持在线水平扩展；

使用消息系统的理由：

解耦

服务之间，不依赖API接口，而是插入一个隐含的、基于数据的接口层，两边的处理过程都要实现这一接口。这允许你独立的扩展或修改两边的处理过程，只要确保它们遵循同样的接口约束。

基于这种消息发布订阅的机制，可以联动多个业务下游子系统，能够不侵入的情况下分布编排和开发，保证数据一致性。
冗余

当处理数据的过程失败，除非数据被持久化，否则将造成丢失。消息队列把数据进行持久化直到它们已经被完全处理，通过这一方式规避了数据丢失风险。例如通过“插入-获取-删除”的范式，在把一个消息从队列中删除之前，需要你的处理系统明确的指出该消息已经被处理完毕，从而确保你的数据被安全的保存直到你使用完毕。
扩展性

消息队列解耦了处理过程，所以增大消息入队和处理的频率是很容易的，只要另外增加处理过程即可，不需要改变代码，不需要调节参数。
灵活性&峰值处理能力

在访问量剧增的请款修改，应用仍然需要继续发挥作用，但是这样的突发流量并不常见。使用消息队列能够使关键组件叮嘱突发的访问压力，而不会因为突发的超负荷的请求而完全崩溃。
可恢复性

一部分组件失效时，不会影响到整个系统。消息队列降低了进程间的耦合度，即使一个处理消息的进程挂掉，加入队列中的消息仍然可以在系统恢复后被处理。
顺序保证

大多是用场景下，数据处理的顺序都很重要。大部分消息队列本来就是排序的，并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition内的消息的有序性。
缓冲

在任何的系统中，都会有需要不同的处理时间的元素。消息队列可以通过缓冲来帮助服务最高效率的执行–写入队列的处理会尽可能的快速，该缓冲有助于控制和优化数据流处理的速度。
异步通讯

当用户不想也不需要立即处理消息，消息队列提供了异步处理机制，允许用户把一个消息放入队列，并不立即处理，持久化保存下来，在需要的时候再去处理。

Topic & Partition

topic在逻辑上可以被认为是一个queue，每条消费都必须指定它的topic，可以简单理解为必须指明把这条消息放进哪个queue里。把一类消息按照主题来分类，有点类似于数据库的表。

为了使kafka的吞吐率可以线性提高，物理上把topic分成一个或多个Partition。对应到系统上就是一个或多个目录。

Broker

Broker：kafka集群包含一个或多个服务器，每个服务器节点称为一个Broker。

Broker存储Topic的数据。如果某Topic有N个Partition，集群有N个Broker，那么每个Broker存储该Topic的一个Partition。

从scale out的性能角度思考，通过Broker kafka server的更多节点，带更多的存储，建立更多的Partition把IO负载到更多的物理节点，提升总吞吐IOPS。

从scale up的角度考虑，一个Node拥有越多的physical disk，也可以负载更多的Partition，提升总吞吐IOPS。

如果某Topic有N个Partition，集群有N+M个Broker，那么其中有N个Broker存储该Topic的一个Partition，M个Broker不存储该Topic。

如果Topic的Partition个数大于Broker的个数，那么一个Broker会存储一个或多个Partition。

每一条消息发送到Broker中，会根据Partition规则选择被存储到哪一个Partition，如果Partition规则设置的合理，所有消息可以均匀分布到不同的Partition。

例如：

当Partition数量小于Broker数量，此时增加Partition数量，消息写入性能呈线性上升。
当Partition数量等于或者大于Broker数量，此时增加Partition数量，消息写入性能变化不大，而且有可能降低。（这是由于可能一个Broker上Partition数量过多，导致吞吐量下降）

存储原理

kafka的消息是存在于文件系统之上的。kafka高度依赖文件系统来存储和缓存消息。但是kafka通过内存缓存和顺序io，解决磁盘读写效率的问题。

操作系统会将内存剩余的所有空闲内存都用做磁盘缓存（free 中看到的cache），也就是使用了内存缓存。

任何发布到Partition的消息都会被追加到Partition数据文件的尾部，这样的顺序写磁盘操作让kafka的效率非常高。

kafka集群保留所有发布的message，无论是否被消费过。kafka提供可配置的保留策略去删除旧数据，通过保留时间或者通过分区大小。

offset偏移量：每条消息都有一个当前Partition下唯一的64字节的offset，相当于当前分区的第一条消息的偏移量，也就是第几条消息，消费者可以指定消费的位置信息，当消费者挂掉再重新恢复的时候，可以从消费位置继续消费。

例如当kafka有1个Broker，创建2个Topic，分别为Topic1和Topic2，Partition数量分别为1,2。此时目录下就会创建三个文件夹：

kafka的文件存储中，同一个Topic下有多个不同的Partition，每个Partition都为一个目录，而每个目录又被平均分配成多个大小相等的segment file中，segment file又由index file和data file组成，他们总是成对出现，后缀.index和.log分别表示segment索引文件和数据文件。

例如index中3，497为例，代表第三个message（全局Partition表示第368769+3个message）以及该消息的物理偏移地址为497。

查询时，通过偏移量，确定segment文件，再通过二分查找在index中查找到索引，通过索引的物理偏移地址，在log中找到对应物理位置。

kafka通过标准的数据存储结构准确的知道message的偏移。在Partition中的每一条message都包含了以下三个属性：

offset：表示message在当前Partition中的偏移量，是一个逻辑上的值，唯一确定了Partition中的一条message，可以简单的认为是一个ID
MessageSize：表示message内容Data的大小
Data：message的具体内容

从0.10.0.0版本起，为分片日志文件中新增一个.timeindex的索引文件，可以根据时间戳定位消息。

timeindex中存储的是时间戳和index文件的offset，先通过时间戳找到最大的，

生产消费

Producer

producer将消息发送Broker时，会根据Partition机制选择将其存储到哪一个Partition。这个机制可以将所有消息均匀分布到不同的Partition。

指明Partition的情况下，直接将给定的value作为Partition的值
没有指明Partition但有key的情况下，将key的hash值与分区数取余，得到Partition值
既没有Partition也没有key的情况下，第一次调用时随机生成一个整数（后面每次调用都在这个整数上自增），将这个值与可用的分区取余，得到Partition值，也就是Round-Robin轮训算法

为保证producer发送的数据，能可靠的发送到指定的Topic，Topic的每个Partition收到producer发送的数据后，都需要向producer发送ack。如果producer收到ack，就会进行下一轮的发送，否则重新发送数据。

选择完Partition后，生产者知道消息所属的Topic和Partition，将这条记录添加到相同主题和分区的批量消息中，另一个线程负责发送这些批量消息到对应的kafka Broker。
当Broker接受到消息后，如果成功写入，则返回一个包含消息的Topic、Partition以及位移的RecordMetadata对象，否则返回异常
生产者接受到结果后，对于异常可能会进行重试

0.11版本kafka，引入幂等性：producer不论向server发送多少重复数据，server端都只会持久化一条。

要启动幂等性，需要将producer的参数中enable.idompotence设置为true即可。

开启幂等性的producer在初始化时会被分配一个PID，发送同一Partition的消息会附带sequence Number。

而Broker端会对<Pid，Partition，SeqNumber>做缓存，当具有相同逐渐的消息提交时，Broker只会持久化一条。

但是PID重启后就会变化，同时不同的额Partition也具有不同的主键，所以幂等性无法保证夸分区绘画的Exactly Once。

因此，不建议使用kafka的幂等，而是在在消费端做业务的幂等。

Consumer

kafka中有Consumer Group的概念，也就是消费组。当多个消费者形成一个消费组来消费Topic时，每个消费者会受到不同Partition的消息。

假设有一个T1 Topic，有4个Partition，分别是p1 p2 p3 p4，同时有一个消费组G1，消费组只有一个consumer，c1，那么消费者c1将会收到这4个Partition的消息。如果在G1中增加一个C2，那么Partition会平均分配给两个consumer。当消费者数量大于Partition，那么剩余的消费者会空闲，不会收到任何消息。

也就是说，增加消费者并不会提升性能。

此时可以在C1中进行多线程消费，通过二次sharding。但是为了保障offset提交的正确性，需要使用watermark机制，保障最小的offset提交，才往Broker提交。

kafka的Topic可以同时给多个consumer group消费，每个消费组都能读到全量消息。

如果应用需要读取全量消息，那么请为该引用设置一个消费组；

如果应用消费能力不足，那么可以考虑在这个消费组增加消费者。

Consumer Group

当新增消费者，会将原先消费者的Partition分给新的消费者。当消费者离开消费组，例如重启、宕机等，消费的分区又会分配给其他分区。这种重平衡现象，可以保证kafka的高可用和水平扩展。在重平衡期间，所有消费者都不能消费消息，因此会造成整个消费组短暂不可用。而且重平衡会导致原来的消费者状态过期，从而导致消费者需要重新更新状态，这段时间也会降低消费性能。（消费者管理通常通过zookeeper实现）

消费者通过定期发送心跳到一个座位组协调者Group Coordinator 的Broker来保持在消费组内存活。这个Broker不是固定的，每个消费组可能都不同。

当消费者拉取消息或者提交时，便会发送心跳，入股哦消费者超过一定时间没有发送心跳，那么回话就会过期，组协调者会认为改消费者已经宕机，然后触发重平衡。

通常情况，应用可以进行优雅关闭，这样消费者户已发送离开的消息到组协调者，这样可以立即进行重平衡。

0.10.1版本kafka对心跳机制进行了修改，将发送心跳与拉取消息进行分离，这样使得发送心跳的频率不受拉取的频率影响。

高版本kafka支持配置消费者多长时间不拉取消息但是保持存活，这个配置可以避免活锁，活锁：是指应用没有故障，但是由于某些原因不能进一步消费。

Partition会为每个Consumer Group保存一个偏移量，记录Group消费到的位置。（也就是说，如果多个消费者的消费速度不一样，就会导致记录的这个偏移量或者说缓存出现问题从而影响消费性能。）

kafka从0.9版本将消费端的位移信息保存在集群内部Topic中，key为Topic、Partition、Consumer Group信息，而且支持压缩，将相同的key记录成一条。

Consumer commit offset

消费端可以通过设置参数 enable.auto.commit 控制是否自动提交还是手动，auto.commit.interval.ms是间隔时间，默认5s。

自动提交：

存在重复的数据，每隔5秒发送的可能是一样的
重复消费，如果5秒期间发生重平衡，则新的消费者会从上一次提交的位移处开始消费，那么期间消费的数据则会再次被消费

手动提交（集中delivery guarantee）：

读完消息先commit再处理消息。如果Consumer再commit后还没来记得处理就crash，这个时候消息会丢失。
读完消息，先处理，再commit，如果处理完之后，commit之前，Consumer挂了，下次重新开始工作时还会处理刚刚未commit的消息，实际上该消息已经被处理过了，也就是会重复处理。

Consumer exactly Once

二阶段提交。消费者拿到数据，放到临时的地方，进行存档，数据处理之后，将offset保存到临时的地方，处理完成，提交offset，将临时目录中的数据移动正式目录。

如果crash，从存档中恢复offset，将临时目录的文件移动到正式目录中。

Push & Pull

producer向Broker push消息，并且由Consumer从Broker pull消息。

消费模式：

push模式，很难适应消费速率不同的消费者，容易造成由于Consumer消费不及时，导致拒绝服务以及网络拥塞。（rabbitmq：监控queue长度，自动做反压。）

pull模式，可以根据Consumer的消费能力以适当的速录消费消息。kafka更合适，可以简化Broker的设计，同时Consumer可以自己控制消费方式，批量消费也可以逐条消费。pull模式需要检测Broker是否有数据，如果没有数据，消费者可能会陷入循环中。因此需要消费者维护一个长轮训，通过时长参数timeout，如果当前没有数据可供消费，Consumer会等待一段时间之后再返回，这段时长就是timeout。

高可用

没有高可用情况下，一个Broker宕机，上面的所有Partition都无法继续提供服务。如果Broker无法恢复，上面的数据就会丢失。

同步模式：如果producer发送失败，则会重试，重试3次（可配置）之后抛出异常，用户也可以选择继续重试。如果重试，会造成数据阻塞，如果不重试，会造成数据丢失
异步模式：如果producer发送失败，则会尝试重试，3次后记录异常到日志，并且继续发送后续数据。这会造成数据丢失并且用户只能通过日志发现该问题

Replication

一个Partition有多个replica，需要在这些replication之间选一个leader，Producer和Consumer只与这个Leader交互，其他Replica作为Follower从Leader中复制数据。

需要保证数据一致性，因此引入Leader，负责数据读写，Follower只向Leader顺序Fetch数据（N条通路），系统更加简单且高效。

Leader

kafka依赖zookeeper集群，所以最简单直观的方案是所有Follower都在Zookeeper上设置一个Watch，一旦Leader宕机，其对应的ephemeral znode会自动删除，此时所有Follower都尝试创建该节点，而创建成功者就是新的Leader，其他replica为Follower。

这个方案的缺点：

脑裂：zookeeper能保证所有watch按顺序触发，但并不能保证同一时刻所有Replica看到的状态一致，这样就可能造成不同replica响应不一致。
羊群效应：如果Broker上的Partition非常多，会造成多个watch被处罚，造成集群内大量的调整。
zookeeper负载：每个replica都要在zookeeper上注册一个watch，当集群规模增加到几千个Partition时，zookeeper负载会很重。

Controller

kafka的Leader Election方案解决了上述问题，它在所有Broker中选出一个Controller，所有Partition的Leader选举由Controller，Controller会将Leader的改变通过RPC的方式通知需要响应的Broker。这种方式比zookeeper queue的方式更高效。

选举Controller过程如下：

每个Broker在zookeeper的Controller Path（/controller）上注册一个watch（选举Broker依赖zookeeper，最新版kafka完全不依赖zookeeper）
当Controller失败，对应的Controller path会自动消息，此时该watch被触发，活着的Broker会去竞争成为新的Controller，只有一个竞选成功
竞选成功即为新的Leader，竞选失败则重新在新的Controller path上注册watch，因为zookeeper的watch是一次性的，被触发一次之后即失效，需要重新注册

Partition选举Leader的过程如下（由Controller执行）：

从zookeeper中读取当前分区的所有ISR（in-sync replicas）集合。（同步副本，副本之间同步速度很快，当有节点同步速度慢，则会从集合中踢出这个Broker）
调用配置的分区选择算法选择分区的Leader

Partition分布

kafka集群Partition replication默认自动分配。

图中，箭头指向为副本，以Partition-0为例，Broker-1的Partition-0为Leader，副本是Broker-2的Partition-0。

每个Broker一次分配主Partition，下一个Broker（按照BrokerID为序）为副本，如此循环迭代分配。

副本分配算法：

将所有N Broker和待分配的i个Partition排序
将第i个Partition分配到第i mod n 个Broker上（确保负载均衡，每个Broker上都有leader）
将第i个Partition的第j个副本分配到第（i+j）mod n 个Broker上。（负载均衡，并且保持id分布）

Leader

kafka处理失败需要明确定义一个Broker是否活着，对kafka而言，kafka存活包含两个条件：

副本所在节点需要与zookeeper维持session（zk的心跳实现）
从副本的最后一条消息的offset需要与主副本的最后一条消息offset差值不超过设定阈值（差值过大，认为改节点离群，在0.10.0版本被移除）或者副本的LEO落后于主副本的LEO时长不大于设定阈值。

Leader会跟踪与其保持同步的replica列表，该列表称为ISR，如果一个Follower宕机，或者落后太多，Leader会把它从LSR中移除，当再次满足以上条件之后，又会被重新加入集合中。

ISR的引入主要是解决同步复制与异步复制两种方案的缺陷：

同步复制，如果有副本宕机或者超时，会拖慢该副本组的整体性能
异步复制，如果所有副本都远落后于主副本，一旦主副本重新选举，则存在消息丢失的情况。

分布式日志系统（replicated log），主要保证：

commit log不会丢失
commit log在不同机器上一致。

几个常见的基于主从复制的replicated log实现：

raft：基于多数节点的ack，超过半数节点确认，则认为数据有效，几点称为leader Follower
pacific A：基于所有节点的ack，节点一般称为primary、secondary，kafka正在使用（维护ISR）
bookkeeper：基于法定个数节点的ack，节点一般称为write、bookie，pulsar正在使用。

例如raft和pacificA在kafka中的使用。kafka需要在zookeeper中动态维护一个ISR，这个ISR里面所有的replica都跟上leader，才有被选为leader的可能。这种模式下，对于一个f+1个replica，一个Partition能保证不丢失已经commit的消息前提下，容忍f个replica失败，只有1个是正常，在大多数场景是有利的。

如果使用raft，则需要保证replica的个数是上面的一倍，也就是3个。

High watermark & Log End Offset

kafka所有的副本对象都有两个重要的属性，LEO和HW

LEO：日志末端位移，记录该副本底层日志中下一条消息的位移值

HW：水位值，对于同一个副本而言，HW值不会大于LEO值。小于等于HW值的所有消息都被认为是已备份的。

可靠性

producer

producer往kafka生产消息，可以选择是否被ISR中的Follower全部接收成功才返回。

0：producer不等待Broker的ack，如果Broker收到数据，但是没有刷盘就返回，当Broker故障时有可能丢失数据
1：producer等待Broker的ack，Partition的Leader落盘成功后返回ack，如果Follower同步成功之前leader故障，则会导致数据丢失
-1（all）：producer等到Broker的ack，Partition的Leader和Follower全部落盘成功后返回ack。但是在Broker发送ack时，Leader发生故障，会造成数据重复

设置request.required.acks=-1的同时，min,.insync.replicas大于1。此时可保证数据可靠性。

高性能

架构层面：

Partition级别并行：Broker、disk、Consumer端
ISR：少量Follower同步

IO层面：

Batch读写：一次性可以push、pull多条
磁盘顺序IO
page cache
zero copy
压缩