Kafka11:数据去重

Kafka11:数据去重

1. 数据重复分析

  • acks:-1( all):生产者发送过来的数据,Leader和ISR队列里面的所有节点收齐数据后应答。
notion image

2.数据传递语意

  • 至少一次(At Least Once)=ACK级别设置为-1 + 分区副本大于等于2 + ISR里应答的最小副本数量大于等于2
  • 最多一次(AtMost Once)= ACK级别设置为0
  • 总结:
    • At Least Once可以保证数据不丢失,但是不能保证数据不重复;
    • At Most Once可以保证数据不重复,但是不能保证数据不丢失。
    • 精确一次(Exactly Once):对于一些非常重要的信息,比如和钱相关的数据,要求数据既不能重复也不丢失。
    • Kafka 0.11版本以后,引入了一项重大特性:幂等性和事务。

3. 幂等性

3.1 幂等性原理

幂等性就是指Producer不论向Broker发送多少次重复数据,Broker端都只会持久化一条,保证了不重复。
精确一次(Exactly Once) = 幂等性+ 至少一次( ack=-1 + 分区副本数>=2 + ISR最小副本数量>=2) 。
重复数据的判断标准:具有<PID, Partition, SeqNumber>相同主键的消息提交时,Broker只会持久化一条。其 中PID是Kafka每次重启都会分配一个新的;Partition 表示分区号;Sequence Number是单调自增的。 所以幂等性只能保证的是在单分区单会话内不重复。
notion image

3.2 如何使用幂等性

开启参数enable.idempotence 默认为true,false 关闭。
Kafka3.0 默认开启幂等性和所有副本的交互确认,这使得默认情况下记录的交互保证性更强。
 

4. 生产者事务

4.1 Kafka事务原理

notion image
  1. 初始化
  1. 启动
  1. 消费者offset
  1. 提交
  1. 终止