阅读背景:

抓取指定的html

来源:互联网 

1.   Heritrix 简介

Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行工具来供用户选择调用。是一个专门为互联网上的网页进行存档而开发




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: