A menudo se utiliza como sinónimo de validación con un conjunto de pruebas independiente, aunque hay diferencias cruciales entre dividir los datos al azar y diseñar un experimento de validación para pruebas independientes.
Conjuntos de pruebas independientes puede utilizarse para medir el rendimiento de la generalización que no puede medirse mediante el remuestreo o la validación de retención, por ejemplo, el rendimiento para casos futuros desconocidos (= casos que se miden más tarde, una vez finalizado el entrenamiento). Esto es importante para saber cuánto tiempo puede utilizarse un modelo existente para nuevos datos (piense, por ejemplo, en la deriva de los instrumentos). En términos más generales, esto puede describirse como la medición del rendimiento de la extrapolación para definir los límites de la aplicabilidad.
Otro escenario en el que el hold-out puede ser realmente beneficioso es: es muy fácil para asegurarse de que los datos de entrenamiento y de prueba están correctamente separados, lo que resulta mucho más fácil que para la validación por remuestreo: por ejemplo
- decidir la división (por ejemplo, hacer una asignación aleatoria de los casos)
- medir
- datos de medición y de referencia de los casos de formación => modelización ni las mediciones ni la referencia de los casos de prueba se entregan a la persona que modela.
- modelo final + mediciones de los casos retenidos => predicción
- comparar las predicciones con la referencia de los casos retenidos.
Dependiendo del nivel de separación que necesite, cada paso puede ser realizado por otra persona. Como primer nivel, no entregar ningún dato (ni siquiera las mediciones) de los casos de prueba al modelador permite estar muy seguro de que ningún dato de prueba se filtra en el proceso de modelado. En un segundo nivel, el modelo final y las mediciones de los casos de prueba podrían entregarse a otra persona, y así sucesivamente.
En algunos campos/casos/aplicaciones, consideramos que esta independencia obvia es lo suficientemente importante como para prescribir que un organización independiente es necesario para la validación*, por ejemplo, en la química clínica (también lo hacemos, por ejemplo, para la seguridad de los vehículos: el que asegura su coche no es el mismo que el que lo repara, y además están en negocios distintos).
(* Soy químico/químico analítico. Para mí, no hay mucha diferencia conceptual entre validar un método de laboratorio húmedo o un método in-silico (también conocido como modelo predictivo). Y la diferencia será aún menor con el avance del aprendizaje automático, por ejemplo, en el diagnóstico médico).
Sí, eso se paga con la menor eficiencia de las estimaciones de retención en comparación con la validación por remuestreo. Pero he visto muchos artículos en los que sospecho que la validación por remuestreo no separa adecuadamente los casos (en mi campo tenemos muchos datos agrupados/jerárquicos/agrupados).
He aprendido mi lección sobre las fugas de datos para el remuestreo al retractarme de un manuscrito una semana después de su presentación cuando descubrí que tenía una fuga no detectada previamente (ejecutando pruebas de permutación al mismo tiempo) en mi procedimiento de división (error tipográfico en el cálculo del índice).
A veces, la retención puede ser más eficaz que encontrar a alguien que esté dispuesto a dedicar tiempo a comprobar el código de remuestreo (por ejemplo, para datos agrupados) con el fin de obtener el mismo nivel de certeza sobre los resultados. Sin embargo, en mi opinión, no suele ser eficaz hacerlo antes de llegar a la fase en la que se necesita medir, por ejemplo, el rendimiento futuro (primer punto), es decir, cuando se necesita establecer un experimento de validación para el modelo existente.
Por otra parte, en situaciones de muestras pequeñas, no hay opción: hay que mantener un número suficiente de casos de prueba para que los resultados sean lo suficientemente precisos como para llegar a la conclusión necesaria (recuerde: 3 casos de prueba correctos de 3 para la clasificación significa un intervalo de confianza binomial del 95% que se sitúa muy por debajo de 50:50). Frank Harrell señala la regla general de que se necesitan al menos unos 100 casos (de prueba) para que se pueda llegar a una conclusión. 100 casos (de prueba) para medir adecuadamente una proporción [como la fracción de casos correctamente predichos] con una precisión útil.
Actualización: hay situaciones en las que la división adecuada es particularmente difícil de lograr, y la validación cruzada se vuelve inviable. Considere un problema con varios factores de confusión. La división es fácil si estos factores de confusión están estrictamente anidados (por ejemplo, un estudio con un número de pacientes tiene varios especímenes de cada paciente y analiza un número de células de cada espécimen): se divide en el nivel más alto de la jerarquía de muestreo (por paciente). Pero puede tener factores de confusión independientes que no están anidados, por ejemplo, la variación diaria o la varianza causada por los diferentes experimentadores que realizan la prueba. En ese caso, debe asegurarse de que la división es independiente para todo los factores de confusión en el nivel más alto (los factores de confusión anidados serán automáticamente independientes). Tener en cuenta esto es muy difícil si algunos factores de confusión sólo se identifican durante el estudio, y el diseño y la realización de un experimento de validación pueden ser más eficientes que tratar con divisiones que casi no dejan datos ni para el entrenamiento ni para la prueba de los modelos sustitutos.
13 votos
¿por qué crees que es inútil? Puedes leer la sección 7 de Elementos de la teoría del aprendizaje estadístico para un análisis formal de sus pros y sus contras. Desde el punto de vista estadístico, k-fold es mejor, pero utilizar un conjunto de pruebas no es necesariamente malo. Intuitivamente, hay que tener en cuenta que un conjunto de pruebas (cuando se utiliza correctamente) es, de hecho, un conjunto de datos que tiene no se ha utilizado en absoluto en la formación. Así que es definitivamente útil en algún sentido para evaluar un modelo. Además, k-fold es súper caro, así que hold out es una especie de "aproximación" a lo que hace k-fold (pero para alguien con poca potencia de cálculo).
2 votos
Desde una perspectiva teórica, K-fold es más preciso, pero ligeramente más caro desde el punto de vista informático. La pregunta era: ¿por qué no hacer SIEMPRE la validación cruzada K-fold?
3 votos
Ya veo. Yo diría que la razón es casi siempre computacional. K-fold aproxima mejor el error de generalización, por lo que desde un punto de vista estadístico K-fold es el método de elección, creo. Hold-out es mucho más sencillo de implementar y no requiere entrenar tantos modelos. En la práctica, entrenar un modelo puede ser bastante caro.
2 votos
Cierto, pero creo que el argumento de "demasiado caro computacionalmente" es bastante frágil. Casi todo el tiempo, estamos tratando de desarrollar los modelos más precisos. Sin embargo, se da la paradoja de que muchos de los experimentos llevados a cabo en la literatura sólo tienen un único conjunto de validación.
2 votos
Pregunta - La sección 7.10.1 de Elementos de la teoría del aprendizaje estadístico, titulada "Validación cruzada de pliegues K", parece indicar que lo ideal es mantener los datos de prueba totalmente separados de los datos de entrenamiento (como en la validación por retención), y la validación de pliegues k es sólo un compromiso, ya que los datos son muchas veces escasos. Todavía soy bastante nuevo en la estadística, ¿podría señalar cómo la validación cruzada es de hecho más precisa?