从文件抓取读取URL列表到抓取?

发布于 2021-01-29 15:07:52

我刚刚安装了scrapy,并按照他们的简单dmoz教程进行了工作。我只是查看了python的基本文件处理,并试图使搜寻器从文件中读取URL列表,但出现了一些错误。这可能是错误的,但我试了一下。有人请教给我一个读取URL列表的例子吗?提前致谢。

from scrapy.spider import BaseSpider

class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    f = open("urls.txt")
    start_urls = f

    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)
关注者
0
被浏览
61
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    你很近。

    f = open("urls.txt")
    start_urls = [url.strip() for url in f.readlines()]
    f.close()
    

    …最好还是使用上下文管理器来确保文件按预期关闭:

    with open("urls.txt", "rt") as f:
        start_urls = [url.strip() for url in f.readlines()]
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看