从sukebei上爬取磁力链接.

这是一个在某神秘网站(笑)上爬取神秘链接的爬虫。此爬虫使用的是scrapy爬虫框架,代码虽然简单但是还是用起来还是很有趣。

Python Web爬虫

详细介绍

前言

这是一个在某神秘网站(笑)上爬取神秘链接的爬虫。此爬虫使用的是scrapy爬虫框架,代码虽然简单但是还是用起来还是很有趣。

数据保存

本爬虫使用的是mysql进行数据保存,只需修改settings.py中的数据库信息和items.pytable(数据库表)即可。

MYSQL_HOST = 'localhost'
MYSQL_DATABASE = 'nyaa'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWORD = '123456'

代理

代理池代理

使用此代理需先运行代理池,然后修改settings.py中的代理池的接口地址。

PROXY_URL ='http://localhost:5555/random'

本地代理

使用本地代理时,请确保本机已开启代理。并清楚使用的协议类型。
确认后修改ProxyMiddleware2中的:

proxy = '127.0.0.1:1080'//本地代理的端口
uri = 'socks5://{proxy}'.format(proxy=proxy)//协议类型修改
!注意:使用本地代理ip长时间爬取有可能回返回403.

完成以上步骤后请打开settings.py中对应的函数。

DOWNLOADER_MIDDLEWARES = {
   # 'nyaa.middlewares.ProxyMiddleware': 300,
   'nyaa.middlewares.ProxyMiddleware2': 300,
}

最后

scrapy crawl ny
即可启动