基于Scrapy框架的知乎用户爬虫

采用scrapy-redis分布式爬虫框架

Python Web爬虫

访问GitHub主页

共4Star

详细介绍

ZhihuUserSpider

自动爬取知乎用户的Scrapy爬虫：

采用scrapy-redis分布式爬虫框架
采用代理池避免IP被封禁而导致爬取失败的问题

代理池实现采用「ProxyPool」配置修改方式请自行参考

环境要求

Python 3.6+
Redis
Mongodb
pymongo
Scrapy
scrapy_redis
requests
environs
Flask
attrs
retrying
aiohttp
loguru
pyquery
supervisor
redis

分布式搭建（可选）

修改scrapy.cfg

url = http://URL:PORT/ # 服务器URL:Scrapyd端口

修改settings.py

REDIS_URL = "redis://URL:PORT" # 服务器URL:Redis端口

修改起点用户

settings.py

START_USER = XXX # 知乎url-token

运行代理池

cd ProxyPool
python run.py

运行爬虫

cd zhihuuser
scrapy crawl zhihu

爬取结果

结果默认保存在本地Mongodb数据库下

其他

此项目仅限用学习研究，不得用于任何非法商业活动

推荐源码

知乎分布式爬虫（Scrapy、Redis）

151 Star
Scrapy- Web爬虫框架

0 Star
基于scrapy-redis的通用分布式爬虫框架

324 Star
zhihu_fun 基于 Selenium 的知乎关键词爬虫

182 Star
基于scrapy + scrapy-redis + scrapy-splash编写的爬虫

2 Star
知乎爬虫和v2ex爬虫的实现

59 Star
go 爬虫框架（参考scrapy）

0 Star
基于python3.6的微博爬虫（scrapy）

12 Star
基于scrapy框架采用异步高并发的方式抓取知乎千万用户信息

5 Star
Scala 爬虫(spider) 框架，受scrapy启发

112 Star

提
问题

写
面经

写
文章

微信
公众号

扫码关注公众号