要使nltk.tokenize.word_tokenize工作,应下载什么?
我将nltk.tokenize.word_tokenize
在一个我的帐户受空间配额非常限制的群集上使用。到家时,我下载了所有nltk
资源,nltk.download()
但据发现,它占用了约2.5GB。
对我来说,这似乎有些矫kill过正。您能否建议最小(或几乎最小)依赖性nltk.tokenize.word_tokenize
?到目前为止,我已经看到了,nltk.download('punkt')
但是我不确定是否足够以及大小是多少。我应该运行什么才能使其正常运行?