def parse_lista_diputados(response):
tree = fromstring(response.content)
# listado de diputados
diputados = tree.xpath('//div[@class="listado_1"]/ul/li/a/@href')
for diputado in diputados:
diputado_url = urljoin(response.url, diputado)
response = requests.get(diputado_url)
parse_diputado(response)
# proxima pagina
pagina_siguiente = tree.xpath('//a[contains(., "Página Siguiente")]/@href')
if pagina_siguiente:
pagina_siguiente_url = pagina_siguiente[0]
response = requests.get(pagina_siguiente_url)
parse_lista_diputados(response)
评论列表
文章目录