基于python3.6的微博爬虫（scrapy）

基于python3.6的微博爬虫（scrapy）

Python Web爬虫

访问GitHub主页

共12Star

详细介绍

WeiboWebSpider

一个爬取微博WAP端的程序，通过关注列表收集个人、每一条微博的信息。

运行环境：

python 3.6 安装方法
MongoDB，PhantomJS
相关第三方库：Scrapy以及相关依赖库，Pymongo，Selenium等

简介

用 selenium+PhantomJS 模拟登录weibo.cn，获取cookies
scrapy 爬取新浪微博个人信息、微博信息
保存到MongoDB
验证码处理：检测到验证码自动弹出窗口，手动输入即可

为了防止账号被封，微博账号是淘宝买的，花了1块大洋，最后发现是直接封IP的。。。。

使用方法

配置MongoDB，启动
CMD进入根目录（scrapy.cfg所在文件夹）
scrapy crawl WeiboWebSpider 或者 scrapy crawl WeiboWebSpider -s JOBDIR=crawls/WeiboWebSpider-1 支持暂停
注意Setting文件中的DownloadDelay，时间过短导致封IP，过一段时间恢复

推荐源码

新浪微博爬虫（Scrapy、Redis）

3042 Star
新浪微博爬虫，一个基于Scrapy框架的迷你微博爬虫，Sina Weibo Spider

4 Star
基于scrapy + scrapy-redis + scrapy-splash编写的爬虫

2 Star
weibo_spider - 微博爬虫

3 Star
基于scrapy+redis的b站分布式爬虫

9 Star
基于Scrapy框架的知乎用户爬虫

4 Star
百度贴吧爬虫(基于scrapy和mysql)

215 Star
SpiderKeeper 基于 scrapy 实现的爬虫管理 Web UI

2416 Star
Cnblogs首页文章列表爬虫，基于scrapy

3 Star
Scrapy- Web爬虫框架

0 Star

提
问题

写
面经

写
文章

微信
公众号

扫码关注公众号