简单的介绍一下大数据中最重要的MapReduce
|
概述 MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。 MapReduce是分布式运行的,由两个阶段组成:Map和Reduce,Map阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 Reduce阶段是一个独立的程序,有很多个节点同时运行,每个节点处理一部分数据。 使用 MapReduce框架都有默认实现,用户只需要覆盖map()和reduce()两个函数,即可实现分布式计算,非常简单。 这两个函数的形参和返回值都是,使用的时候一定要注意构造。 ![]() 执行流程(此处举例说明)
1.获取每一个block块中的文本,遍历所有,回去其中的一行str 因为要统计的是每一个单词i的次数,所以还需要直到文本中有哪些单词,可以根据字符串的特点,使用split()进行切割。
根据要求,需将每一个单词i转换为的形式,k为单词本身,v为单词出现的次数。 2.因为mr的计算是分布式的 ,每一个map(称之为一个mapper task)计算其中的一个block块数据。
经过上述操作之后,系统会将计算结果输出给用户,一般会先存储(落地)到hdfs,然后反馈给用户。 到此为止,MapReduce执行完毕,接下来就可以进行大数据的其他一系列操作了。
(编辑:岳阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 如何以代码的形式提供安全性:11个入门提示
- 哪些最流行?FONTREACH收录百万网站字体使用情况(附排行)
- AutoCAD2020如何关闭开始页面 关掉开始选项卡方法
- 一篇运维老司机的大数据平台监控宝典(1)-联通大数据集群平
- VR塔防游戏《Djinni & Thaco: Trial By Spire》将在第二季度
- Unity即将推出全新AR内容开发工具MARS
- 日本独售:《Rockman VR: Aimed At The Virtual World》即将
- IPv6 普及尚早,如何在 Ubuntu 系统中禁用 IPv6 协议
- 杭州趣链科技发生经营范围变更,新增家用电器、智能设备销售
- Spark和Hadoop的架构区别解读




