假设某台服务器上有一个10亿行文本的文件,文件中每一行都是已经经过分词的句...
发布于 2022-03-02 16:59:56
假设某台服务器上有一个10亿行文本的文件,文件中每一行都是已经经过分词的句子。现在需要统计该文件中每个词出现的频次,现在有另有5台服务器供你使用,你能否设计流程,充分利用这些服务器,尽可能的快速统计出词语频次?
(请重点描述文件按何种方式分割到多台服务器,每台服务器计算出什么样的结果,这些结果又是按何种方式聚合到一起得到我们最终需要的词频统计信息的)
关注者
0
被浏览
29