Estoy leyendo sobre MinHash para estimar la similitud entre 2 conjuntos: Dados los conjuntos A y B, h es la función hash y $h_\min(S)$ es el hash mínimo del conjunto S, es decir $h_\min(S) = \min(h(s))$ para s en S. Tenemos la ecuación: $$ p(h_\min(A) = h_\min(B)) = \frac{|A \cap B|}{|A \cup B|} $$ Lo que significa que la probabilidad de que el hash mínimo de A sea igual al hash mínimo de B es la similitud de Jaccard de $A$ y $B$ .
Estoy tratando de probar la ecuación anterior y llegar a una prueba, que es: para $a \in A$ y $b \in B$ tal que $h(a) = h_\min(A)$ y $h(b) = h_\min(B)$ . Por lo tanto, si $h_\min(A) = h_\min(B)$ entonces $h(a) = h(b)$ . Supongamos que la función hash h puede convertir claves en valores hash distintos, por lo que $h(a) = h(b)$ sólo si $a = b$ que es $\frac{|A \cap B|}{|A \cup B|}$ . Sin embargo, mi prueba no es completa ya que la función hash puede devolver el mismo valor para diferentes claves. Por lo tanto, pido su ayuda para encontrar una prueba que se puede aplicar independientemente de la función hash. Muchas gracias.
L