浏览 229
分享
主题模型
给包含 篇文档的定语料库 ,其中 为第 篇文档,包含 个单词。
语料库的所有单词来自于词汇表 ,其中 表示词汇表的大小,第 个单词为 。
注意:文档中的单词标记为 ,它表示文档中第 个位置的单词为 。如:文档中第1个位置的单词为 (假设 ),则文档中第一个位置的单词为
我
。因此这里将 来表示文档中的单词(也称作
token
),用 表示词表中的单词。BOW:Bag of Words
:词在文档中不考虑顺序,这称作词袋模型。
评论列表