阅读背景:

Heritrix只爬取html、htm等特定页面

来源:互联网 

       Heritrix有5条链,网上有说在Extractor链里做处理,该链是抽取链,可以负责解析html页面的内容,然后进一步筛选。但是我目前只想通过判断后缀名筛选出html、htm、shtml、xshtml等文件。因此这样在Extractor里做处理就有点牛刀小用的意思,因此我在PostProcessor链里做处理。详细介绍如下:       Heritrix有5条链,网上有说在Extractor链里做处理,该链是抽取链,




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: