将自动爬虫的结果判断是否属于hooks,并不断抓取url爬啊爬
将自动爬虫的结果判断是否属于hooks,并不断抓取url爬啊爬。
Python Web爬虫
访问GitHub主页
共32Star
详细介绍
AutoHookSpider
将自动爬虫的结果判断是否属于hooks,属于则入库,并不断抓取url爬啊爬。
AutoHookSpider
├── LICENSE
├── README.md
├── hooks.txt #hooks字典,随机放了200个,可以自己收集。
├── lib
│ ├── __init__.py
│ ├── common.py #琐碎功能
│ └── record.sql #先在Mysql创建这个表,并改下common.py数据库连接
├── main.py #主程序
└── requirements.txt
- sudo pip install -r requirements.txt
- lib/record.sql into mysql
- usage: python main.py {Options} [ google.com,twitter.com,facebook.com | -t 20 ]
- 或者直接
python main.py
会直接在hooks.txt抽取(thread_cnt)个入口域名。
推荐源码
-
4 Star
-
11 Star
-
8 Star
-
5 Star
-
3 Star
-
88 Star
-
1904 Star
-
99 Star
-
0 Star
-
132 Star