Python-如何将文本分成句子?

发布于 2021-02-02 23:17:13

我有一个文本文件。我需要得到一个句子清单。

如何实现呢?有很多细微之处,例如缩写中使用了点。

我的旧正则表达式效果很差:

re.compile('(\. |^|!|\?)([A-Z][^;↑\.<>@\^&/\[\]]*(\.|!|\?) )',re.M)
关注者
0
被浏览
55
1 个回答
  • 面试哥
    面试哥 2021-02-02
    为面试而生,有面试问题,就找面试哥。

    自然语言工具包(nltk.org)满足你的需求。 该群组发布表明这样做:

    import nltk.data
    
    tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')
    fp = open("test.txt")
    data = fp.read()
    print '\n-----\n'.join(tokenizer.tokenize(data))
    

    (我还没有尝试过!)



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看