阅读背景:

工作采坑札记:4. Hadoop获取InputSplit文件信息

来源:互联网 

1. 场景

  基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且每个文件以"类型_yyyyMMdd_批次号"命名。由于同一条记录可能存在于多个文件中,且处于多个文件中的相同记录最终只有时间最新的记录有效,但文件的每行记录并未提供时间信息,因此需要从每个文件名中提取时间信息作为文件每行记录信息。  基于客户的数据处理需求,客户分发诸多小数据文件,文件每行代表一条记录信息,且




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: