笔记 - Flink 1.16 预测执行 Speculative Execution

标题：Flink 1.16 预测执行 Speculative Execution

关键词： Flink 16 预测执行 Speculative Execution

内容：

参考：
https://nightlies.apache.org/flink/flink-docs-release-1.16/zh/docs/deployment/speculative_execution/

背景
预测执行是一种用于缓解异常机器节点导致作业执行缓慢的机制。机器节点异常包括硬件异常，偶发的输入输出繁忙，高 CPU 负载等问题。这些问题会导致运行在其上的任务比起在其他节点上运行的任务慢很多，从而影响到整个作业的执行时长。
在这种情况下，预测执行会为这些慢任务创建一些新的执行实例并部署在正常的机器节点上。这些新的执行实例和其对应的老执行实例(慢任务) 会消费相同的数据，并产出相同的结果。而那些老执行实例也会被保留继续执行。这些执行实例(包括新实例和老实例)中首先成功结束的执行实例会被认可，其产出的结果会对下游任务可见，其他实例则会被取消掉。
为了实现这个机制，Flink 会通过一个慢任务检测器来检测慢任务。检测到的慢任务位于的机器节点会被识别为异常机器节点，并被加入机器节点黑名单中。调度器则会为这些慢节点创建新的执行实例，并将其部署到未被加黑的机器节点上。