Kafka系列之:记录一次源头数据库刷数据,造成数据丢失的原因
- 一、背景
- 二、查看topic日志信息
- 三、结论
- 四、解决方法
一、背景
-
源头数据库在很短的时间内刷了大量的数据,部分数据在hdfs丢失了
-
理论上debezium数据采集不会丢失,就需要排查数据链路某个节点是否有数据丢失。
-
数据链路是:debezium——kafka——flume——hdfs
-
根据经验定位数据在kafka侧丢失,下一面进一步确认是否数据在kafka侧丢失
二、查看topic日志信息
Kafka日志信息如下:
[2025-02-20 23:58:21,009] INFO [Log partition