LSH使用的哈希值混淆

发布于 2021-01-29 17:10:17

矩阵M是签名矩阵,它是通过对实际数据进行Minhashing处理而生成的,其文档为列,单词为行。因此,一列代表一个文档。

现在,它说每个条带(b在数量上,r在长度上)都有其列的散列,因此列落入了存储桶中。如果两列属于同一存储桶(对于> = 1条带),则它们可能相似。

因此,这意味着我应该创建b哈希表并找到b独立的哈希函数?还是只有一个就足够了,每个条带都将其列发送到相同的存储桶集合(但这不会取消条带)吗?

关注者
0
被浏览
43
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    我想我已经弄明白了,发布给以后的读者。

    我将使用一个字典,因为幻灯片提到可以对每个条带使用相同的哈希函数。

    每个存储桶都是我们字典的关键。

    插入时,文档(即,属于条带的列)将通过哈希函数(将由 我们 创建)传递,并且结果应为键。这样,我们的字典将被填充。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看