mapreduce入门程序之---wordcount

发表于:2019-09-04

mapreduce是hadoop生态中非常主要的一部份，顾名思义，主要分为两部份，map和reduce，他们各司其职，map的主要功效是用来看待处置的文档进行处置，主要是对数据进行按行读取，分割，然后依据用户须要进行不同的断定，清楚，直到得到目的的清洁数据。reduce程序主要是对map传来的数据进行汇总，求和。最后经统计的成果输入到目的文件中。具体代码以下： WCMapper.java import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; //4个泛型，前两个是mapper输入数据的类型KENY是输入的key的类型，VALUIN是指的value的类型 //map和reduce的数据的输入输出都是以key-value的情势存在的 //默许情形下框架传递给我们的mapper框架输入数据，key是要处置文本的中一行的起始地位的偏移量，这一行的内容作为value public class WCMapper extends Mapper mapreduce是hadoop生态中非常主要的一部份，顾名思义，主要分为两部份，map和reduc

分享到：

非常感谢你花费了来阅读本文,如果你在本站获取到了新知识,那就请点击分享按钮将本站分享出去吧。