Python

要使nltk.tokenize.word_tokenize工作，应下载什么？

发布于 2021-01-29 15:23:31

我将nltk.tokenize.word_tokenize在一个我的帐户受空间配额非常限制的群集上使用。到家时，我下载了所有nltk资源，nltk.download()但据发现，它占用了约2.5GB。

对我来说，这似乎有些矫kill过正。您能否建议最小（或几乎最小）依赖性nltk.tokenize.word_tokenize？到目前为止，我已经看到了，nltk.download('punkt')但是我不确定是否足够以及大小是多少。我应该运行什么才能使其正常运行？

关注者

被浏览

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。

你是对的。您需要Punkt Tokenizer模型。它有13 MB，nltk.download('punkt')应该可以解决问题。

知识点

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦