阅读背景:

行业垂直搜索引擎网页抓取项目

来源:互联网 
公司有一个搜索引擎项目,希望各路高人有空来帮忙指导,谢谢!
这是详细需求:
(1) 通过提供的网站地址(大概100-200个网站),网页抓取程序能不断抓取网页和其它类型的文件(如Excel、PDF、Word、ppt及zip类型),并且程序能够根据事先提供的规则,过滤掉不相干的下载内容。 (1) 通过提供的网站地


你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: