1. 数据重复分析
- acks:-1( all):生产者发送过来的数据,Leader和ISR队列里面的所有节点收齐数据后应答。
2.数据传递语意
- 至少一次(At Least Once)=ACK级别设置为-1 + 分区副本大于等于2 + ISR里应答的最小副本数量大于等于2
- 最多一次(AtMost Once)= ACK级别设置为0
- 总结:
- At Least Once可以保证数据不丢失,但是不能保证数据不重复;
- At Most Once可以保证数据不重复,但是不能保证数据不丢失。
- 精确一次(Exactly Once):对于一些非常重要的信息,比如和钱相关的数据,要求数据既不能重复也不丢失。
- Kafka 0.11版本以后,引入了一项重大特性:幂等性和事务。
3. 幂等性
3.1 幂等性原理
幂等性就是指Producer不论向Broker发送多少次重复数据,Broker端都只会持久化一条,保证了不重复。
精确一次(Exactly Once) = 幂等性+ 至少一次( ack=-1 + 分区副本数>=2 + ISR最小副本数量>=2) 。
重复数据的判断标准:具有<PID, Partition, SeqNumber>相同主键的消息提交时,Broker只会持久化一条。其
中PID是Kafka每次重启都会分配一个新的;Partition 表示分区号;Sequence Number是单调自增的。
所以幂等性只能保证的是在单分区单会话内不重复。
3.2 如何使用幂等性
开启参数enable.idempotence 默认为true,false 关闭。
Kafka3.0 默认开启幂等性和所有副本的交互确认,这使得默认情况下记录的交互保证性更强。
4. 生产者事务
4.1 Kafka事务原理
- 初始化
- 启动
- 消费者offset
- 提交
- 终止