POS标记德语
我正在使用NLTK从以下命令开头的文本字符串中提取名词:
tagged_text = nltk.pos_tag(nltk.Text(nltk.word_tokenize(some_string)))
它的英文很好用。 有没有一种简便的方法也可以使其适用于德语?
(我没有自然语言编程的经验,但是我设法使用了到目前为止很棒的python nltk库。)
-
自然语言软件通过利用语料库及其提供的统计数据来发挥其魔力。您需要告诉nltk一些德语语料库,以帮助它正确地标记德语。我相信EUROPARL语料库可能会帮助您前进。
请参阅nltk.corpus.europarl_raw及其配置示例的答案。
另外,考虑使用“ nlp”标记该问题。