我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分两个时段分别爬...

发布于 2022-03-03 22:35:00

我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分两个时段分别爬了大约50亿个URL,分别存放在A、B两个文件中,其中每个URL的平均大小大约64字节。

现在你手头只有一台电脑,配置有足够的硬盘但剩余可用内存只有4GB,请设计一种可行的方法,找出A、B两个文件中都出现的URL并将他们输出到一个新的文件C中。请写出设计思路和要点。(提示:50亿*64B = 320GB 远大于 4GB)

关注者
0
被浏览
42
知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看