前言
(转载)MapReduce:详解Shuffle过程
我画了更加直观的解释图。
(转载)JobTracker和TaskTracker详解
Hadoop MapReduce采用Master/Slave结构。
Master: 整个集群的唯一的全局管理者,功能包括:作业管理、状态监控和任务调度等,即MapReduce中的JobTracker。
Slave: 负责任务的执行和任务状态的回报,即MapReduce中的TaskTracker。
Apache Kafka™ is a distributed streaming platform.
我使用的是 kafka 0.9+。
参考官方文档,本文包括kafka的集群架构和工作原理,配置文件解析,常用脚本命令和java API操作。
创建组 加入组 列出组成员 删除组
MapReduce编程遵循一个特定的流程。首先写map 函数和reduce函数,最好使用单元测试来确保函数的运行符合预期。然后,写一个驱动程序来运行作业,看这个驱动程序是否可以正确运行,可以先从本地IDE中用一个小的數掘集采送行它。如果驱动程序不能正确运行,就用本地 IDE 調試器来找出问题根源。根据这些调试信息,可以通过扩展单元测试来覆盖这一测试用例,从而改进mapper或reducer,使其能正确处理类似输入。