目录
  1. 1. Hadoop MapReduce
    1. 1.0.1. 批处理模式
    2. 1.0.2. MapReduce 介绍
  2. 1.1. Hadoop MapReduce工作流程
  3. 1.2. MapReduce 案例分析:单词计数
  4. 1.3. Hadoop MapReduce工作机制
  5. 1.4. MapReduce 编程实例
大数据

参考链接:大数据

Hadoop MapReduce

本节首先简单介绍大数据批处理概念,然后介绍典型的批处理模式 MapReduce,最后对 Map 函数和 Reduce 函数进行描述。

##Hadoop MapReduce 架构

批处理模式

批处理模式是一种最早进行大规模数据处理的模式。批处理主要操作大规模静态数据集,并在整体数据处理完毕后返回结果。批处理非常适合需要访问整个数据集合才能完成的计算工作。

例如,在计算总数和平均数时,必须将数据集作为一个整体加以处理,而不能将其视作多条记录的集合。这些操作要求在计算进行过程中数据维持自己的状态。

需要处理大量数据的任务通常最适合用批处理模式进行处理,批处理系统在设计过程中就充分考虑了数据的量,可提供充足的处理资源。

由于批处理在应对大量持久数据方面的表现极为出色,因此经常被用于对历史数据进行分析。

为了提高处理效率,对大规模数据集进行批处理需要借助分布式并行程序

传统的程序基本是以单指令、单数据流的方式按顺序执行的。这种程序开发起来比较简单,符合人们的思维习惯,但是性能会受到单台计算机的性能的限制,很难在给定的时间内完成任务。

而分布式并行程序运行在大量计算机组成的集群上,可以同时利用多台计算机并发完成同一个数据处理任务,提高了处理效率,同时,可以通过增加新的计算机扩充集群的计算能力。

Google 最先实现了分布式并行处理模式 MapReduce,并于 2004 年以论文的方式对外公布了其工作原理,Hadoop MapReduce 是它的开源实现。Hadoop MapReduce 运行在 HDFS 上。

MapReduce 介绍

Hadoop MapReduce工作流程

MapReduce 案例分析:单词计数

Hadoop MapReduce工作机制

MapReduce 编程实例

文章作者: 桔子邮差
文章链接: http://yoursite.com/2019/11/26/%E5%A4%A7%E6%95%B0%E6%8D%AE/
版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 微木斋
打赏
  • 微信
  • 支付寶

评论