scrapy startproject douban_login
cd douban_login
scrapy genspider douban "douban.com"
配置 settings.py 文件
编写 start.py 文件,利用 cmdline 快速指定爬虫代码
场景:使用 scrapy 登录豆瓣网,然后到个人中心页面,修改个性签名
请求:初始请求【GET】、登录请求【POST】、个人中心请求【GET】、修改签名请求【POST】
注意:
- 初始请求的地址是:
start_urls - 使用
urllib + PIL下载验证码图片,并人工识别验证码【可以付费调用识别验证码的接口】 captcha-id和ck两个请求参数都在源码中的某个元素里
运行 start.py