如何在Scikit-Learn文本CountVectorizer或TfidfVectorizer中保留标点符号?

发布于 2021-01-29 14:11:02

我可以使用scikit-
learn中的文本CountVectorizerTfidfVectorizer参数从文本文档中保留!,?,“和’的标点符号吗?

关注者
0
被浏览
96
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    token_pattern实例化矢量化程序时,应自定义参数。例如:

    vent = CountVectorizer(token_pattern=r"(?u)\b\w\w+\b|!|\?|\"|\'")
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看