一、什么是网络爬虫
首先,我们需要接受一个观点:非原创即采集。只要获取不是自己原创的资源(视频、音频、图片、文件等一切数据,比如,通过百度查找信息、在浏览器上阅览网页、使用迅雷下载文件、与朋友微信聊天),我们就是在采集网络数据。理论上而言,采集网络数据是一种通过多种手段收集网络数据的方式,除与API交互(或者直接与浏览器交互)的方式之外,最常用的网络数据采集方式是编写一个自动化程序向网络服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。采集网络数据所用到的程序一般被称为网络爬虫(Web crawler)。首先,我们需要接受一个观点:非原创即采集。只要获取不是自己原创的资源(视频、音频、