阿拉伯文字的Python ISRIStemmer

发布于 2021-01-29 16:03:01

我在IDLE(Python)上运行以下代码,我想输入阿拉伯字符串并获取其词根,但实际上不起作用

>>> from nltk.stem.isri import ISRIStemmer
>>> st = ISRIStemmer()
>>> w= 'حركات'
>>> join = w.decode('Windows-1256')
>>> print st.stem(join).encode('Windows-1256').decode('utf-8')

运行它的结果是w中的相同文本是’حركات’,而不是词干

但是何时执行以下操作:

>>> print st.stem(u'اعلاميون')

结果成功,并返回词干“علم”

为什么将一些单词传递给stem()函数不会返回茎?

关注者
0
被浏览
51
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    好的,我自己使用以下方法解决了该问题:

    w = 'حركات' 
    st.stem(w.decode('utf-8'))
    

    它正确地给出了根 "حرك"



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看