LSH使用的哈希值混淆
发布于 2021-01-29 17:10:17
矩阵M
是签名矩阵,它是通过对实际数据进行Minhashing处理而生成的,其文档为列,单词为行。因此,一列代表一个文档。
现在,它说每个条带(b
在数量上,r
在长度上)都有其列的散列,因此列落入了存储桶中。如果两列属于同一存储桶(对于> = 1条带),则它们可能相似。
因此,这意味着我应该创建b
哈希表并找到b
独立的哈希函数?还是只有一个就足够了,每个条带都将其列发送到相同的存储桶集合(但这不会取消条带)吗?
关注者
0
被浏览
43
1 个回答