阅读背景:

mapreduce入门程序之---wordcount

来源:互联网 
mapreduce是hadoop生态中非常主要的一部份,顾名思义,主要分为两部份,map和reduce,他们各司其职,map的主要功效是用来看待处置的文档进行处置,主要是对数据进行按行读取,分割,然后依据用户须要进行不同的断定,清楚,直到得到目的的清洁数据。reduce程序主要是对map传来的数据进行汇总,求和。最后经统计的成果输入到目的文件中。具体代码以下: WCMapper.java import java.io.IOException; import org.apache.commons.lang.StringUtils; import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; //4个泛型,前两个是mapper输入数据的类型KENY是输入的key的类型,VALUIN是指的value的类型 //map和reduce的数据的输入输出都是以key-value的情势存在的 //默许情形下框架传递给我们的mapper框架输入数据,key是要处置文本的中一行的起始地位的偏移量,这一行的内容作为value public class WCMapper extends Mapper mapreduce是hadoop生态中非常主要的一部份,顾名思义,主要分为两部份,map和reduc


你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: