[转帖]hadoop读书笔记MapReduce执行流程_Hadoop,ERP及大数据讨论区_Weblogic技术|Tuxedo技术|中间件技术|Oracle论坛|JAVA论坛|Linux/Unix技术|hadoop论坛_联动北方技术论坛  
网站首页 | 关于我们 | 服务中心 | 经验交流 | 公司荣誉 | 成功案例 | 合作伙伴 | 联系我们 |
联动北方-国内领先的云技术服务提供商
»  游客             当前位置:  论坛首页 »  自由讨论区 »  Hadoop,ERP及大数据讨论区 »
总帖数
1
每页帖数
101/1页1
返回列表
0
发起投票  发起投票 发新帖子
查看: 3239 | 回复: 0   主题: [转帖]hadoop读书笔记MapReduce执行流程        下一篇 
huizai
注册用户
等级:少校
经验:933
发帖:83
精华:0
注册:2013-6-18
状态:离线
发送短消息息给huizai 加好友    发送短消息息给huizai 发消息
发表于: IP:您无权察看 2013-6-26 16:50:07 | [全部帖] [楼主帖] 楼主

1、  提交作业:主要执行函数submitJob();

①   通过调用jobTracker对象的getNewJobId()方法从JobTracker处理取当前作业的ID号;

②     检查作业相关路径。

③     计算作业的出入划分,并将划分信息写入Job.split文件中。如果吸入失败就会返回错误信息。

④     将运行作业所需要的资源---包括作业JAR文件,配置文件和计算所得的输入划分等—复制到作业对应的HDFS上。

⑤     调用JobTracker对象的submitJob()方法来真正提交作业;

2、  初始化作业---作业提交后JobTracker会把此调用方法内部TaskScheduler变量中,然后进行调度。当作业被调度执行时,JobTracker会创建一个代表这个作业的JobInprogress对象。JobInProgress对象的initTasks函数会对人物进行初始化。

①     从HDFS中读取作业对应的Job.split;

②     创建并初始化Map和Reduce任务

③     初始化两个task;

3、  分配任务:

    taskTracker作业为一个单独的JVM执行一个简单的循环。主要实现每隔一段时间向jobTracker发送心跳:告诉JobTracker此TaskTracker是否存活,是否准备执行新的任务。JobTracker接受到心跳信息。如果有待分配任务。它就会为TaskTracker分配一个任务并将分配信息封装在新掉通信的返回值中返回给TaskTracker;

4、  执行任务:

TaskTracker申请到新的任务之后,就要在本地运行任务了。运行任务的第一步是

任务本地化—将任务运行所需要的数据配置信息、程序代码从HDFS复制到TaskTracker本地;

5、  更新任务执行进度和状态

通过心跳通信机制,所有TaskTracker的统计信息都会汇总到JobTracker处JobClient通过每秒查看JobTracker来接受作业进度的最新状态。




赞(0)    操作        顶端 
总帖数
1
每页帖数
101/1页1
返回列表
发新帖子
请输入验证码: 点击刷新验证码
您需要登录后才可以回帖 登录 | 注册
技术讨论