要使nltk.tokenize.word_tokenize工作,应下载什么?

发布于 2021-01-29 15:23:31

我将nltk.tokenize.word_tokenize在一个我的帐户受空间配额非常限制的群集上使用。到家时,我下载了所有nltk资源,nltk.download()但据发现,它占用了约2.5GB。

对我来说,这似乎有些矫kill过正。您能否建议最小(或几乎最小)依赖性nltk.tokenize.word_tokenize?到目前为止,我已经看到了,nltk.download('punkt')但是我不确定是否足够以及大小是多少。我应该运行什么才能使其正常运行?

关注者
0
被浏览
35
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    你是对的。您需要Punkt Tokenizer模型。它有13 MB,nltk.download('punkt')应该可以解决问题。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看