阅读背景:

python——简单的爬虫

来源:互联网 

1.了解网页结构

首先选取一部分的种子URL,将这些URL放入待抓取URL队列;

取出待抓取URL,解析DNS得到主机的IP,并将URL对应的网页下载下来,存储进已下载网页库中,并且将这些URL放进已抓取URL队列。取出待




你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: