基于python3.6的微博爬虫(scrapy)

基于python3.6的微博爬虫(scrapy)

Python Web爬虫

访问GitHub主页

共12Star

详细介绍

WeiboWebSpider

一个爬取微博WAP端的程序,通过关注列表收集个人、每一条微博的信息。

运行环境:

  • python 3.6 安装方法
  • MongoDB,PhantomJS
  • 相关第三方库:Scrapy以及相关依赖库,Pymongo,Selenium等

简介

  1. 用 selenium+PhantomJS 模拟登录weibo.cn,获取cookies
  2. scrapy 爬取新浪微博个人信息、微博信息
  3. 保存到MongoDB
  4. 验证码处理:检测到验证码自动弹出窗口,手动输入即可

为了防止账号被封,微博账号是淘宝买的,花了1块大洋,最后发现是直接封IP的。。。。

使用方法

  1. 配置MongoDB,启动
  2. CMD进入根目录(scrapy.cfg所在文件夹)
  3. scrapy crawl WeiboWebSpider 或者 scrapy crawl WeiboWebSpider -s JOBDIR=crawls/WeiboWebSpider-1 支持暂停
  4. 注意Setting文件中的DownloadDelay,时间过短导致封IP,过一段时间恢复