阅读背景:

scrapy 请求和响应

来源:互联网 

scrapy Request类的一些参数意义

url: 就是需要请求,并进行下一步处理的url
callback: 指定该请求返回的Response,由那个函数来处理。
method: 一般不需要指定,使用默认GET方法请求即可
headers: 请求时,包含的头文件。一般不需要。内容一般如下:使用 urllib2 自己写过爬虫的肯定知道
        Host: media.readthedocs.org
        User-Agent: Mozilla/5.0 (Windows NT 6.2; WOW64; rv:33.0) Gecko/20100101 Firefox/33.0
        Accept: text/css,*/*;q=0.1
        Accept-Language: zh-cn,zh;q=0.8,en-us;q=0.5,en;q=0.3
        Accept-Encoding: gzip, deflate
        Referer: https://scrapy-chs.readthedocs.org/zh_CN/0.24/
        Cookie: _ga=GA1.2.1612165614.1415584110;
        Connection: keep-alive
        If-Modified-Since: Mon, 25 Aug 2014 21:59:35 GMT
        Cache-Control: max-age=0
meta: 比较常用,在不同的请求之间传递数据使用的。字典dict型
        request_with_cookies = Request(url="https://www.example.com",
                                       cookies={‘currency‘: ‘USD‘, ‘country‘: ‘UY‘},
                                       meta={‘dont_merge_cookies‘: True})
encoding: 使用默认的 ‘utf-8‘ 就行。
dont_filter: 页面是否去重 默认是Falsse 不去重url: 就是需要请求,并进行下一步处



你的当前访问异常,请进行认证后继续阅读剩余内容。

分享到: