最近大数据很火,也想了解一下。相关产品很多,看了一些资料,Hadoop用的比较广泛。我理解的大数据,数据量很大,大到传统的文件存储方式都无法存放,更不用说使用关系型数据库。因此大数据首先需要解决的是数据存储,Hadoop采用的是分布式文件系统HDFS,将数据文件拆分到多个服务器(数据节点datanode)上,访问和存储都由HDFS进行管理,用户使用的时候,无需关心数据文件拆分问题,完全透明(这些数据节点由一个服务器(namenode)进行管理,分配任务)。读取时将多个数据节点上的数据块通过网络发送给请求者,写入的时候同理。如此便极大提升了大数据的存取速度。 最近大数据很火,也想了解一下。相关产品很多,看了一些资料,Hadoop用的比较广泛。我理解