Kafka分区分配策略详解

语言: CN / TW / HK
在上一篇文章中,我们为大家详细介绍可Kafka的原理与核心概念,包括控制器选举及恢复、分区leader的选举等,详情可见 Kafka核心技术概念与架构原理,本次我们来为大家详细讲解Kafka等分区分配策略,希望能对大家有所帮助
Kafka提供了消费者客户端参数partition.assignment.strategy⽤来设置消费者与订阅主题之间的分区分 配策略。默认情况下此参数的值为:org.apache.kafka.clients.consumer.RangeAssignor,即采⽤ RangeAssignor分配策略。除此之外,Kafka中还提供了另外两种分配策略: RoundRobinAssignor和 StickyAssignor。消费者客户端参数partition.asssignment.strategy可以配置多个分配策略,彼此之间 以逗号分隔。

RangeAssignor分配策略

RangeAssignor策略的原理是按照消费者总数和分区总数进⾏整除运算来获得⼀个跨度,然后将分区按 照跨度进⾏平均分配,以保证分区尽可能均匀地分配给所有的消费者。对于每⼀个topic,
 
RangeAssignor策略会将消费组内所有订阅这个topic的消费者按照名称的字典序排序,然后为每个消费 者划分固定的分区范围,如果不够平均分配,那么字典序靠前的消费者会被多分配⼀个分区。
 
假设n=分区数/消费者数量,m=分区数%消费者数量,那么前m个消费者每个分配n+1个分区,后⾯的 (消费者数量-m)个消费者每个分配n个分区。
 
如果消费组内有2个消费者C0和C1,且都订阅了主题t0和t1,并且每个主题都有4个分区,那么所订阅的所 有分区可以标识为:t0p0、t0p1、t0p2、t0p3、t1p0、t1p1、t1p2、t1p3。最终的分配结果为:
 
消费者C0:t0p0、t0p1、t1p0、t1p1 
消费者C1:t0p2、t0p3、t1p2、t1p3
这样分配的很均匀,那么此种分配策略能够⼀直保持这种良好的特性呢?我们再来看下另外⼀种情况。 假设上⾯例⼦中2个主题都只有3个分区,那么所订阅的所有分区可以标识为:t0p0、t0p1、t0p2、 t1p0、t1p1、t1p2。最终的分配结果为:
消费者C0:t0p0、t0p1、t1p0、t1p1 
消费者C1:t0p2、t1p2
可以明显的看到这样的分配并不均匀,如果将类似的情形扩⼤,有可能会出现部分消费者过载的情况

RoundRobinAssignor分配策略

RoundRobinAssignor策略的原理是将消费组内所有消费者以及消费者所订阅的所有topic的partition按 照字典序排序,然后通过轮询⽅式逐个将分区以此分配给每个消费者。RoundRobinAssignor策略对应 的partition.assignment.strategy参数值为:org.apache.kafka.clients.consumer.RoundRobinAssignor。
 
如果同⼀个消费组内所有的消费者的订阅信息都是相同的,那么RoundRobinAssignor策略的分区分配 会是均匀的。假设消费组中有2个消费者C0和C1,都订阅了主题t0和t1,并且每个主题都有3个分区,那么所订阅的所 有分区可以标识为:t0p0、t0p1、t0p2、t1p0、t1p1、t1p2。最终的分配结果为:
消费者C0:t0p0、t0p2、t1p1
消费者C1:t0p1、t1p0、t1p2
如果同⼀个消费组内的消费者所订阅的信息是不相同的,那么在执⾏分区分配的时候就不是完全的轮询分配,有可能会导致分区分配的不均匀。如果某个消费者没有订阅消费组内的某个topic,那么在分配分区的时候此消费者将分配不到这个topic的任何分区。
 
假设消费组内有3个消费者C0、C1和C2,它们共订阅了3个主题:t0、t1、t2,这3个主题分别有1、2、3个分区,即整个消费组订阅了t0p0、t1p0、t1p1、t2p0、t2p1、t2p2这6个分区。具体⽽⾔,消费者 C0订阅的是主题t0,消费者C1订阅的是主题t0和t1,消费者C2订阅的是主题t0、t1和t2,那么最终的分配结果为:
消费者C0:t0p0 
消费者C1:t1p0 
消费者C2:t1p1、t2p0、t2p1、t2p2

StickyAssignor分配策略

Kafka从0.11.x版本开始引⼊这种分配策略,它主要有两个⽬的:
  • 分区的分配要尽可能的均匀;
  • 分区的分配尽可能的与上次分配的保持相同。
 
当两者发⽣冲突时,第⼀个⽬标优先于第⼆个⽬标。鉴于这两个⽬标,StickyAssignor策略的具体 实现要⽐RangeAssignor和RoundRobinAssignor这两种分配策略要复杂很多。
 
假设消费组内有3个消费者:C0、C1和C2,它们都订阅了4个主题:t0、t1、t2、t3,并且每个主题有2 个分区,也就是说整个消费组订阅了t0p0、t0p1、t1p0、t1p1、t2p0、t2p1、t3p0、t3p1这8个分区。 最终的分配结果如下
 
消费者C0:t0p0、t1p1、t3p0
消费者C1:t0p1、t2p0、t3p1
消费者C2:t1p0、t2p1
这样初看上去似乎与采⽤RoundRobinAssignor策略所分配的结果相同,但事实是否真的如此呢?再假 设此时消费者C1脱离了消费组,那么消费组就会执⾏再平衡操作,进⽽消费分区会重新分配。如果采⽤ RoundRobinAssignor策略,那么此时的分配结果如下:
消费者C0:t0p0、t1p0、t2p0、t3p0
消费者C2:t0p1、t1p1、t2p1、t3p1
如分配结果所示,RoundRobinAssignor策略会按照消费者C0和C2进⾏重新轮询分配。⽽如果此时使⽤ 的是StickyAssignor策略,那么分配结果为:
消费者C0:t0p0、t1p1、t3p0、t2p0 
消费者C2:t1p0、t2p1、t0p1、t3p1 
可以看到分配结果中保留了上⼀次分配中对于消费者C0和C2的所有分配结果,并将原来消费者C1的“负 担”分配给了剩余的两个消费者C0和C2,最终C0和C2的分配还保持了均衡。
 
如果发⽣分区重分配,那么对于同⼀个分区⽽⾔有可能之前的消费者和新指派的消费者不是同⼀个,对 于之前消费者进⾏到⼀半的处理还要在新指派的消费者中再次复现⼀遍,这显然很浪费系统资源。 StickyAssignor策略如同其名称中的“sticky”⼀样,让分配策略具备⼀定的“粘性”,尽可能地让前后两次分 配相同,进⽽减少系统资源的损耗以及其它异常情况的发⽣。
 
例如消费组内有3个消费者:C0、C1和C2,集群中有3个主题:t0、t1和t2,这3个主题分别有1、2、3 个分区,也就是说集群中有t0p0、t1p0、t1p1、t2p0、t2p1、t2p2这6个分区。消费者C0订阅了主题 t0,消费者C1订阅了主题t0和t1,消费者C2订阅了主题t0、t1和t2。
 
如果此时采⽤RoundRobinAssignor策略,那么最终的分配结果如下所示:
消费者C0:t0p0 
消费者C1:t1p0 
消费者C2:t1p1、t2p0、t2p1、t2p2 
如果此时采⽤的是StickyAssignor策略,那么最终的分配结果为:
消费者C0:t0p0 
消费者C1:t1p0、t1p1 
消费者C2:t2p0、t2p1、t2p2 
这是⼀个最优解(消费者C0没有订阅主题t1和t2,所以不能分配主题t1和t2中的任何分区给 它,对于消费者C1也可同理推断)。假如此时消费者C0脱离了消费组,那么RoundRobinAssignor策略的分配结果为:
消费者C1:t0p0、t1p1
消费者C2:t1p0、t2p0、t2p1、t2p2
RoundRobinAssignor策略保留了消费者C1和C2中原有的3个分区的分配:t2p0、t2p1和 t2p2(针对结果集1)。⽽如果采⽤的是StickyAssignor策略,那么分配结果为:
消费者C1:t1p0、t1p1、t0p0 
消费者C2:t2p0、t2p1、t2p2 
StickyAssignor策略保留了消费者C1和C2中原有的5个分区的分配:t1p0、t1p1、t2p0、 t2p1、t2p2。Kafka分区分配策略我们就说到这里,下一篇文章,我们将给大家带来Kafka调优指南。
 

更多福利

云智慧已开源集轻量级、聚合型、智能运维为一体的综合运维管理平台OMP(Operation Management Platform) ,具备 纳管、部署、监控、巡检、自愈、备份、恢复 等功能,可为用户提供便捷的运维能力和业务管理,在提高运维人员等工作效率的同时,极大提升了业务的连续性和安全性。点击下方地址链接,欢迎大家给OMP点赞送star,了解更多相关内容~
 
 
微信扫描识别下方二维码,备注【OMP】加入AIOps社区运维管理平台OMP开发者交流群,与OMP项目PMC当面交流,和更多行业大佬一起交流学习~