基于Python3.7的简单的爬虫Demo
基于Python3.7的简单的爬虫Demo,包含爬取百度百科、51job北京java岗位的招聘信息,并把爬取内容保存在MySQL数据库
Python Web爬虫
共5Star
详细介绍
PythonSpider
基于Python3.7的简单的爬虫Demo,包含爬取百度百科,51job北京java岗位的招聘信息,并把爬取内容保存在MySQL数据库中
开发环境及项目框架介绍
- IDE:Intellij IDEA
- 数据库:MySQL (保存百度百科数据的数据库结构代码baike.sql) (保存51job数据的数据库结构代码51java.sql)
- 代码管理:Git
模块介绍
- url_manager.py:URL管理器
- html_downloader.py: 网页下载器(urllib2)
- html_parser.py:网页解析器(BeautifulSoup)
- html_outputer:输出爬取数据
演示步骤
- 爬取百度百科数据:运行spider_main.py
- 爬取51job北京java岗位的招聘信息数据:运行51job.py
SELECT
max(hign) AS 最高工资,
min(low) AS 最低工资,
avg(hign) AS 最高平均工资,
avg(low) AS 最低平均工资,
avg((hign + low) / 2) AS 平均工资
FROM
51java;
查询结果
最高工资 | 最低工资 | 最高平均工资 | 最低平均工资 | 平均工资 |
70000 | 1500 | 20273 | 12686 | 16480 |
-
1 Star
-
54 Star
-
3 Star
-
56 Star
-
1 Star
-
43 Star
-
36 Star
-
0 Star
-
19 Star
-
1 Star