范文健康探索娱乐情感热点
投稿投诉
热点动态
科技财经
情感日志
励志美文
娱乐时尚
游戏搞笑
探索旅游
历史星座
健康养生
美丽育儿
范文作文
教案论文

大数据开发MapReduce任务流程

  作为Hadoop生态核心组件的MapReduce,是实现大数据计算处理的主要引擎,其核心思想是"分而治之",简单来说就是分为Map和Reduce两个阶段。今天的大数据开发分享,我们主要来讲讲MapReduce具体的任务流程。
  MapReduce的任务流程,简单点来说,先进行数据拆分,一个大的MapReduce作业,会被分解为多个小的Map任务。中间环节,可能会有Combiner会处理Map生成的数据;之后数据到达Partitioner,将中间结果分配到对应的Reducer所在节点上;Reducer会处理中间数据,得到最终的结果。
  一、Map阶段
  MapReduce接收到数据后,需要对数据进行划分。MapReduce中有一个InputFormat类,它会完成如下三个任务:
  验证作业数据的输入形式和格式。
  将输入数据分割为若干个逻辑意义上的InputSplit,其中每一个InputSplit都将单独作为Map任务的输入。也就是说,InputSplit的个数,代表了Map任务的个数。需要注意,这里并没有做实际切分,仅仅是将数据进行逻辑上的切分。
  提供一个RecordReader,用于将Map的输入转换为若干个记录。虽然MapReduce作业可以接受很多种格式的数据,但是Map任务接收的任务其实是键值对类型的数据,因此需要将初始的输入数据转化为键值对。RecordReader对象会从数据分片中读取出数据记录,然后转化为Key-Value键值对,逐个输入到Map中进行处理。
  二、Combiner
  Combiner组件在实际运行当中,并非必须存在的部分,通常可以按照实际的需求灵活的添加。Combiner组件的主要作用是减少网络传输负载,优化网络数据传输优化。
  当我们Map任务处理完成之后,大文本会变成一个一个的Key-Value对。
  在没有Combiner组件前提下,这些键值对会直接传输到Reducer端,进行最后的统计工作。但是这一步是可以优化的,因为Map端仅仅是将每行的词拆分了,但是其实可以再做一步统计的。
  设计Combiner时,要保证Combiner的key-value和Map的key-value一致。这也意味着,若你设计的Combiner改变了原先Map的键值对设计,那么你的Combiner设计就是不合法的。
  三、Partitioner
  为了保证所有主键相同的键值对会传输到同一个Reducer节点,以便Reducer节点可以在不访问其他Reducer节点的情况下就可以计算出最终的结果,我们需要对来自Map(如果有Combiner,就是Combiner之后的结果)中间键值对进行分区处理,Partitioner主要就是进行分区处理的。
  Partitioner默认的分发规则
  根据key的hashcode%reduce task数来分发,所以:如果要按照我们自己的需求进行分组,则需要改写数据分发(分区)组件Partitioner。
  Partition的key value,就是Mapper输出的key value
  输入是Map的结果对和Reducer的数目,输出则是分配的Reducer(整数编号)。就是指定Mappr输出的键值对到哪一个reducer上去。系统缺省的Partitioner是HashPartitioner,它以key的Hash值对Reducer的数目取模,得到对应的Reducer。这样保证如果有相同的key值,肯定被分配到同一个reducre上。如果有N个reducer,编号就为0,1,2,3……(N-1)。
  MapReduce中会将map输出的kv对,按照相同key分组,然后分发给不同的reducetask默认的分发规则为:根据key的hashcode%reduce task数来分发,所以:如果要按照我们自己的需求进行分组,则需要改写数据分发(分组)组件Partitioner,自定义一个CustomPartitioner继承抽象类:Partitioner
  Partitioner的执行时机,是在Map输出key-value对之后。
  四、Reduce
  Reduce处理上游(Map,也可能有Combiner)的中间结果。需要注意的是,Map到Reduce整个过程中,键值的变化是不一样的:
  初始是文本内容,会被RecordReader处理为键值对;
  经过Map(也可能有Combiner)后,仍然是键值对形式;
  经过Partition,到达Reduce的结果是key-list(value)形式,所以在Reduce处理的value其实一个整体;
  Reduce会把所有的结果处理完成,输出到对应的输出路径。
  关于大数据开发,MapReduce任务流程,以上就为大家做了简单的介绍了。MapReduce在Hadoop生态当中,是重要的数据处理指导思想,理解了MapReduce,对于后续的Spark计算引擎的学习,也有指导意义。

发行商割韭菜7天内暴涨230000,一天雪崩几乎归零的加密货币韩剧鱿鱼游戏近来在全球爆红韩剧鱿鱼游戏近来在全球爆红,加密货币游戏平台鱿鱼游戏(SquidGameproject)抢搭热潮,推出同名的闯关游戏及加密货币鱿鱼币,玩家必须购买鱿鱼币才11。25午评简评国科微国科微就被列入实体清单,好久没看到这个实体清单了。为什么是国科微。很简单,因为华为的关系。美国大量收集数据,就是为了找出隐藏在华为背后的设备商,供应商。所以这个事情和国科微公司本身最近,大厂们都在忙着投哪些GP和赛道?对外进行股权投资,布局VCPE,似乎已成为大企业发展中的一种风向。以腾讯阿里字节小米等为代表的CVC投资机构正在崛起。过去几年,中国CVC机构发展迅猛,不仅是新经济领域的BATJ,为什么苹果一直没快充肯定会有人反驳说不是有pd18w快充吗?那是需要购买的,而且放在2021年随便一个厂商都不止18w。苹果不出高性能快充,应该是人他们在研发方面,有一些技术还没有解决吧,所以,苹果如巅峰对决!谷歌Pixel6ProVSGalaxyS21Ultra哪款安卓机皇获胜?哈喽,您好!我是原呵呵,点点关注吧,更多精彩内容等着您Pixel6Pro终于将Google带回了旗舰手机中,但三星的三星GalaxyS21Ultra可以说是当今Android硬件的家用打印机,喷墨,激光选哪种?家庭用打印机买激光的还是喷墨的?1激光打印机和喷墨打印机各有优劣,如果打印量比较大,且需要更快速度和一劳永逸,推荐购买激光打印机相反预算不足,也不介意使用期间需要更换墨盒,喷墨打印空间站舱内高清画面公开,王亚平真仙女,某品牌笔记本电脑出镜?在领略了中国空间站舱外1080P高清视频之后,最近,天和核心舱舱内的高清画面也正式公开了,王亚平像仙女一样在里面飞来飞去,3个大红苹果格外抢镜。与此同时,我们也可以看到许多有意思的国人为何不支持联想了?144Hz骁龙888芯片,降价1100也无人问津点击关注,每天精彩不断!导读国人为何不支持联想了?144Hz骁龙888芯片,降价1100也无人问津!随着移动互联网的快速发展,也极大地带动了国内科技产业的发展,最近这几十年在国内的马云跟任正非比,两者有可比性吗,你认为谁会更厉害一些?在阿里马云说的算在华为任正非只有决策权,财务人事任免方面他说的不算。举个例子捐款的时候,马云说捐5000万,阿里巴巴立马就会出公告阿里巴巴捐款5000万。任正非只能提个建议,然后由看书学习的意义究竟是什么?看书学习的意义是什么?这是一个月月日日时时的话题。虽如此,观点各异,没人统一。有圣人说,有哲人说,有长辈说,有领导说,有师者说,有懒说。圣人说读书可得美人得玉帛,可得大厦得黄金,可从6799跌至6539,鸿蒙OS麒麟90005G,可惜是减配版等到过去了2021年之后,华为手机的海思麒麟机型热度也就会更加降低一个档次,因为搭载4nm工艺的处理器已经在路上了。而华为旗下的麒麟9000处理器搭载是5nm工艺,面对全新的工艺,
菲利普斯曲线躺平了,经济学家懵逼了菲利普斯曲线躺平了菲利普斯曲线是经济学中一个非常重要的概念,它是一条反应通货膨胀率与失业率关系的曲线,表明两者之间的反比关系失业率越低,通胀越高,反之亦然。这一经济学概念由威廉菲利大佬带货谁更强?雷军今年首播就大卖了1。88亿!老罗打扰了感觉,这直播带货的风气突然就开始流行起了来啊,一开始还是只是直播或者一些明星带货,到了现在各行各业基本都有人参与到了直播带货的大潮流中来。不过讲道理,带货的收益确实明显,无论从销量领导给5000块买投影机还要牌子货?明基E540让你完美交差这年头中小企业的采购不好当,网上价格透明,搞活动时还能亏本卖。领导在网上随便一搜,批了个尴尬的预算,4000块让买个智能商务投影机,还说网上两三千的杂牌一大把,给你4000块,必须相比华为畅享20Plus,为什么真我V15更值得入手?盘点2020年的手机市场,可以说是百花齐放,消费者更容易在各个价位段买到自己心仪的手机,时间进入到2021年,手机圈到底有何变化呢?其实最大的变化就是消费者能够以更合适的价格入手一专注创新再获肯定!OPPO蝉联财经可持续发展创新奖2021年1月8日,2020年财经可持续发展金融峰会暨长青奖颁奖典礼如期举行,秉持科技为人,以善天下的品牌信仰,凭借创新驱动企业持续发展的OPPO荣获长青奖可持续发展创新奖。而早在13的优势力压华为,OPPO专利授权量稳坐全国TOP32020年刚刚过去,也有不少机构发布了有关于2020全年的总结。像是在专利授权方面,前不久国家知识产权局就发布了2020年度发明授权专利年报。在报告中的G06大类(计算推算计数),旺季不旺,中国水泥报价10月恐见高点中国统计局公布的数据显示,9月份中国水泥产量达2。05亿吨,年减13,主要在于中国水泥行业正进行错峰生产,而目前这样的情况将延续至10月份。即便目前水泥价格还在上涨,但已有市场人士中国镁业限产,全球铝锭和汽车行业再次陷入两难虽然半导体短缺今年一直困扰着全球汽车行业,但市场现在正将重点转向另一种金属镁。镁是铝的硬化剂,在汽车行业,用于制造关键的发动机缸体变速箱车架车身面板和轮辋等汽车关键部件,镁的短缺可美国再次出现利率倒挂,意味着什么?美国经济要再次衰退了吗?最近的债券市场比股票市场更加波谲云诡。上周,全球的息口市场异动,美国再次出现利率倒挂,不由让市场再次提心吊胆。上周四,美国的20年和30年债息出现倒挂。我们知道,正常的利率曲线是较不再挤牙膏的iPhone13手机,你们会不会很期待?众所周知,去年10月份苹果将iPhone12系列机型全面上市,果不其然,它的关注也特别多,频繁地登上了热搜。但是里面的内容都是关于取消充电器以及价格方面的槽点等。也能看得出大家都很连锁反应!一款OPPO手机热卖,带动联发科反超高通?近日根据有关消息表示,受限于不少国产厂商等诸如OPPO对于芯片订单量的增加,联发科将会在第一季度对台积电7nm制程扩大投片,6nm制程的天玑1200也开始量产,一季度总投片量达到1