给定词典 [a, b, c, d, e],基于这个五单词词典的三个文档(document)内容如下:
DocA: [a, b, b, d, d]
DocB: [b, b, b, e, e, e, d]
DocC: [d, d, b, b, e]
如果使用 bag-of-words model 将每个文档表示成五维的向量,例如,DocA 可以被表示为 {a:1, b:2, c:0, d:2, e:0}。基于这三个五维向量,计算两两之间的余弦相似性(Cosine similarity),最相似的两个向量是: