Yo voy a ir a través de algunos ML de material de formación de Google (no puedo publicar un enlace porque estoy recibiendo el material a través de mi empresa).
En la parte acerca de cómo extraer los datos y dividir en tren y conjuntos de la prueba, están utilizando una función hash sobre uno de los campos de datos para proporcionar un determinista y repetición de pruebas/tren de split en lugar de uno aleatorio.
Pero no se puede lo mismo ser realizado con una muestra aleatoria.la semilla de la función?
Por otra parte, utilizando una función hash significa que no puede utilizar el campo en el que el hash que se ha generado (que podría ser potencialmente útil para un modelo), o podría ser la inserción de algunos desconocidos sesgo en el modelo?
¿Qué ventaja tiene el uso de una función hash tiene sobre el uso de la semilla aleatoria?