corpus_processor.py 文件源码

python
阅读 22 收藏 0 点赞 0 评论 0

项目:DataScience-And-MachineLearning-Handbook-For-Coders 作者: wxyyxc1992 项目源码 文件源码
def corpus2bow(self, tokenized_corpus=default_documents):
        """returns (vocab,corpus_in_bow)

        ??????? BOW ??

        Arguments:
        tokenized_corpus -- ?????????

        Return:
        vocab -- {'human': 0, ... 'minors': 11}
        corpus_in_bow -- [[(0, 1), (1, 1), (2, 1)]...]
        """
        dictionary = corpora.Dictionary(tokenized_corpus)

        # ????
        vocab = dictionary.token2id

        # ?????????
        corpus_in_bow = [dictionary.doc2bow(text) for text in tokenized_corpus]

        return (vocab, corpus_in_bow)
评论列表
文章目录


问题


面经


文章

微信
公众号

扫码关注公众号