ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

Flink task故障失败恢复策略详解及对应参数、代码配置

2022-03-20 19:00:01  阅读:303  来源: 互联网

标签:flink task 策略 重启 Flink strategy 详解 restart


Flink任务执行过程中经常会出现由于网络或者内存等原因导致某些task失败,这时就需要我们配置对应的task故障恢复,也就是重启策略来保障某个子task失败可以自动恢复过来而不影响导致整个flink job任务失败。

Flink的故障恢复有四种方式:重启策略分为:固定延迟重启策略、故障率重启策略、无重启策略、后备重启策略;

这几种方式中除去无重启策略,其他三种重启策略都是需要建立在开启checkpoint的前提下配置,如果没有开启checkpointFLink checkpoint生产使用实践和原理详解)则默认为无重启策略,如果激活了检查点并且尚未配置重启策略,则固定延迟策略将用于 Integer.MAX_VALUE重启尝试。

默认重启策略是通过Flink的配置文件设置的flink-conf.yaml。配置参数restart-strategy定义采用的策略。

1.固定延迟重启策略

固定延迟重启策略是尝试给定次数重新启动作业。如果超过最大尝试次数,则作业失败。在两次连续重启尝试之间,会有一个固定的延迟等待时间。

通过在flink-conf.yaml中配置参数:

# fixed-delay:固定延迟策略
restart-strategy: fixed-delay

# 尝试5次,默认Integer.MAX_VALUE
restart-strategy.fixed-delay.attempts: 5

# 设置延迟时间10s,默认为 akka.ask.timeout时间
restart-strategy.fixed-delay.delay: 10s

如果想通过代码中修改:

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

// 5表示最大重试次数为5次,10s为延迟时间
env.setRestartStrategy(RestartStrategies.fixedDelayRestart(5,Time.of(10, TimeUnit.SECONDS)));

2.故障率重启策略

故障率重启策略在故障后重新作业,当设置的故障率(failure rate)超过每个时间间隔的故障时,作业最终失败。在两次连续重启尝试之间,重启策略延迟等待一段时间。

在flink-conf.yaml文件配置

# 设置重启策略为failure-rate
restart-strategy: failure-rate

# 失败作业之前的给定时间间隔内的最大重启次数,默认1
restart-strategy.failure-rate.max-failures-per-interval: 3

# 测量故障率的时间间隔。默认1min
restart-strategy.failure-rate.failure-rate-interval: 5min

# 两次连续重启尝试之间的延迟,默认akka.ask.timeout时间
restart-strategy.failure-rate.delay: 10s

在代码中设置:

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

// 3为最大失败次数;5min为测量的故障时间;10s为2次间的延迟时间
env.setRestartStrategy(RestartStrategies.failureRateRestart(3,Time.of(5, TimeUnit.MINUTES),Time.of(10, TimeUnit.SECONDS)));

3.无重启策略

作业直接失败,不尝试重启。

如果配置了对应的checkpoint但是不想开启重启策略则配置方式为在flink-conf.yaml中配置:

restart-strategy: none

在代码中实现:

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
env.setRestartStrategy(RestartStrategies.noRestart());

4.后备重启策略

使用群集定义的重新启动策略。这对于启用检查点的流式传输程序很有帮助。默认情况下,如果没有定义其他重启策略,则选择固定延迟重启策略。

注意要区分的是上述所说的任务故障恢复重启策略,指的是task的故障恢复而不是整个flink job的失败的恢复,task的故障恢复是保证某一个子task的失败可以自己恢复过来而不导致整个job的失败,如果是flink job 失败则需要重新手动提交拉起任务了。

参考文章:

1.flink官网配置task故障恢复配置

2.Flink重启策略

3.FLink checkpoint生产使用实践和原理详解


学习大数据,技术,业务,读书,职场更多文章可以扫码关注“迪答”公众号。

标签:flink,task,策略,重启,Flink,strategy,详解,restart
来源: https://blog.csdn.net/HD0do/article/details/123616379

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有