阅读背景:

Nutch 1.3 学习笔记1

来源:互联网 

1. Nutch是什么?

Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构 Nutch是一个开源的网页抓取工具,主要用于收集网页数



你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: