当前位置：K88软件开发 → 文章中心 → 大数据 → Hadoop → 文章内容

Hadoop Failover

减小字体

增大字体作者：佚名来源：网上搜集发布时间：2019-1-26 10:06:49

由 kamiya 创建，Alma 最后一次修改 2016-08-12 YARN - Failover失败类型程序问题进程崩溃硬&#x#x4EF6;问题失败处理任务失败运行时异常或者JVM退出都会报告给ApplicationMaster通过心跳来检查挂住的任务(timeout)，会检查多次（可配置）才判断该任务是否失效一个作业的任务失败率超过配置，则认为该作业失败失败的任务或作业都会有ApplicationMaster重新运行ApplicationMaster失败ApplicationMaster定时发送心跳信号到ResourceManager，通常一旦ApplicationMaster失败，则认为失败，但也可以通过配置多次后才失败一&##x65E6;ApplicationMaster失败，ResourceManager会启动一个新的ApplicationMaster新的ApplicationMaster负责恢复之前错误的ApplicationMaster的状态(yarn.app.mapreduce.am.job.recovery.enable=true)，这一步是通过将应用运行状态保存到共享的存储上来实现的，ResourceManager不会负责任务状态的保存和恢复Client也会定时向ApplicationMaster查询进度和状态，一旦发现其失败，则向ResouceManager询问新的ApplicationMasterNodeManager失败NodeManager定时发送心跳到ResourceManager，如果超过一段时间没有收到心跳消息，ResourceManager就会将其移除任何运行在该NodeManager上的#x7684;任务和ApplicationMaster都会在其他NodeManager上进行恢复如果某个NodeManager失败的次数太多，ApplicationMaster会将其加入黑名单（ResourceManager没有），任务调度时不在其上运行任务ResourceManager失败通过checkpoint机制，定时将其状态保存到磁盘，然后失败的时候，重新运行通过zookeeper同步状态和实现透明的HA可以看出，一般的错误处理都是由当前模块的父模块进行监控（心跳）和恢复。而最顶端的模块则通过定时保存、同步状态和zookeeper来?#x5B9E;现HA

Hadoop Failover

[] [返回上一页] [打印]

·上一篇文章：Hadoop Container
·下一篇文章：Hadoop MapReduce

Hadoop Failover

文章评论评论内容只代表网友观点，与本站立场无关！

频道栏目导航

本类热门阅览

相关文章