设为首页 - 加入收藏 拉萨站长网 (http://www.0891zz.com)- 国内知名站长资讯网站,提供最新最全的站长资讯,创业经验,网站建设等!
热搜: 平台 2015 内容
当前位置: 首页 > 运营中心 > 网站设计 > 教程 > 正文

简单的介绍一下大数据中最重要的MapReduce

发布时间:2019-09-22 10:50 所属栏目:[教程] 来源:我滴个鬼鬼
导读:MapReduce执行流程图 概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据

简单的介绍一下大数据中最重要的MapReduce
MapReduce执行流程图

概述

MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。

MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。

Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。

使用

MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。

这两个函数的形参和返回值都是,使用的时候一定要注意构造。

简单的介绍一下大数据中最重要的MapReduce

执行流程(此处举例说明)

  1. 一个文本(在HDFS上面保存,两个block)中每一个单词的出现的次数:?
  2. ????hello?you?hello?marry?
  3. ????hello?me?really?
  4. ????????????----->block-1?
  5. ?????????????
  6. ????hello?kate?ready?
  7. ????xiao?wang?hello?tomcat?
  8. ????????????----->block-2?

1.获取每一个block块中的文本,遍历所有,回去其中的一行str

因为要统计的是每一个单词i的次数,所以还需要直到文本中有哪些单词,可以根据字符串的特点,使用split()进行切割。

  1. String[]?words=str.split("");?

根据要求,需将每一个单词i转换为的形式,k为单词本身,v为单词出现的次数。

2.因为mr的计算是分布式的 ,每一个map(称之为一个mapper task)计算其中的一个block块数据。

  1. map阶段:?
  2. ????输入?
  3. ????????k1,偏移量,v1,当前行文本内容?
  4. ????????map()函数操作?
  5. ????输出?
  6. ????????k2,具体单词,v2,单词对应的统计项,比如次数?
  7. ????输出?
  1. shuffle阶段?
  2. 研究后发现,如果按照这种方式向reduce输出数据的时候,会有?
  3. 大量的冗余数据。?
  4. 比如map阶段之后有5个hello,则输出,,,?
  5. ,5次,实际上会对网络造成一定的压力,能不能对?
  6. 这5个进行一个进入reduce之前的本地组合?比如成为?
  7. 或者.?
  8. 这个过程成为shuffle,洗牌重组阶段,达到上述的结果,称之为规约。?
  9. >>>shuffle阶段,也就是对map的输出进行重新洗牌:?
  10. 分区、分组、排序?
  11. ...===>?
  1. reduce阶段?
  2. 接收map的输出结果?
  3. 对这个结果进行汇总统计,针对values,进行简单的累加,计算得出key?
  4. 对应的次数?
  5. reduce针对一个key调用一次reduce()函数?
  6. =====>reduce?阶段?
  7. 输入?
  8. ????K2,就是map的输出的K2,V2s是map经过shuffle之后的结果集?
  9. ????reduce()函数操作?
  10. 转化为???

经过上述操作之后,系统会将计算结果输出给用户,一般会先存储(落地)到hdfs,然后反馈给用户。

到此为止,MapReduce执行完毕,接下来就可以进行大数据的其他一系列操作了。

【免责声明】本站内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

网友评论
推荐文章