一个简单的Python爬虫

一个简单的Python爬虫,核心模块:URL管理器、(网页)下载器、(网页)解析器

Python Web爬虫

详细介绍

爬虫架构

1、爬虫调度端(调度器)

2、核心模块:URL管理器、(网页)下载器、(网页)解析器

  • URL管理器
  • 下载器 urllib2 request
  • 解析器 正则表达式 html.parser(python自带) BeautilfulSoup lxml

区别

正则表达式: 模糊匹配

html.parser(python自带) BeautilfulSoup lxml: 结构化解析(DOM树的方式)

本例

以抓取百度百科为例

入口url:http://baike.baidu.com/view/21087.htm(Python词条)

入口url:http://tinymood.com(个人博客)

推荐源码