Hadoop下将大量小文件生成一个sequenceFile文件
来源:互联网
概念:SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件,它可以在map/reduce过程中的input/output 的format时被使用。在map/reduce过程中,map处理文件的临时输出就是使用SequenceFile处理过的。 所以一般的SequenceFile均是在FileSystem中生成,供map调用的原始文件。概念:SequenceFile是一个由二进制序列化过的key/value的字节流组成的文本存储文件,