我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分两个时段分别爬...
发布于 2022-03-03 22:35:00
我们通过网络爬虫从网络上爬取URL并保存在文件中。假设我们分两个时段分别爬了大约50亿个URL,分别存放在A、B两个文件中,其中每个URL的平均大小大约64字节。
现在你手头只有一台电脑,配置有足够的硬盘但剩余可用内存只有4GB,请设计一种可行的方法,找出A、B两个文件中都出现的URL并将他们输出到一个新的文件C中。请写出设计思路和要点。(提示:50亿*64B = 320GB 远大于 4GB)
关注者
0
被浏览
42