阅读背景:

nutch v1.9源码分析(5)——generator分析

来源:互联网 

1.1        generator

1.1.1     职责

generator的目的是从crawldb中根据一定的选取策略,选取一部分url作为本次循环爬取列表(fetchlist)。在生成爬取列表的过程中,需要考虑爬虫的“礼貌”问题——爬虫不能只顾自己以最快的速度将需要爬取的内容全部爬取下来,而不管对所爬取的网站造成多大访问压力,过分的爬取策略可能会被源网站认为是DOS(Denial Of Service)攻击,而被源网站给禁掉IP。爬虫在爬取的过程中,应该在自己力所能及的范围内,将对源网站的访问压力降低大最小。genera




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: