Respuesta corta: no es ni malo ni nuevo.
Hace 15 años, cuando preparábamos un artículo*, hablamos de este esquema de validación con el nombre de "validación de conjuntos", pero al final nunca nos referimos a él porque no lo encontramos en la práctica.
Wikipedia se refiere al mismo esquema de validación como validación de submuestreo aleatorio repetido o validación cruzada de Monte Carlo
Desde un punto de vista teórico, el concepto nos interesaba porque
- es otra interpretación de los mismos números que se suele denominar hold-out (sólo el modelo para el que se utiliza la estimación es diferente: las estimaciones hold-out se utilizan como estimación de rendimiento para exactamente el modelo probado, este conjunto o validación de Monte Carlo trata el modelo o modelos probados como modelo(s) sustituto(s) y interpreta el mismo número que la estimación del rendimiento de un modelo construido sobre todo el conjunto de datos, como se suele hacer con la validación cruzada o con las estimaciones de validación fuera de la base)
- y está en algún punto intermedio
- técnicas de validación cruzada más comunes (remuestreo con reemplazo, interpretación como estimación para el modelo de datos completos),
- hold-out (ver arriba, mismo cálculo + números, típicamente sin N iteraciones/repeticiones, aunque y diferente interpretación)
- y out-of-bootstrap (las N iteraciones/repeticiones son típicas para out-of-bootstrap, pero nunca he visto que se aplique a hold-out y [desafortunadamente] rara vez se hace con validación cruzada).
* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, M. G. Variance reduction in estimating classification error using sparse datasets, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
El error de "validación del conjunto" para N = 1 está oculto en la fig. 6 (es decir, su sesgo + varianza pueden reconstruirse a partir de los datos dados, pero no se dan explícitamente).
pero no parece óptimo en términos de varianza. ¿Hay argumentos a favor o en contra del segundo procedimiento?
Bien, en el documento anterior encontramos el error total (sesgo² + varianza) de out-of-bootstrap y repeated/iterated $k$ -La validación cruzada doble es bastante similar (con oob teniendo una varianza algo más baja pero un sesgo más alto - pero no hemos hecho un seguimiento para comprobar si/cuánto de esta compensación se debe al remuestreo con/sin reemplazo y cuánto se debe a la diferente proporción de división de aproximadamente 1 : 2 para oob).
Tenga en cuenta, sin embargo, que estoy hablando de la precisión en situaciones de tamaño de muestra pequeño, donde el contribuyente dominante a la incertidumbre de la varianza es el mismo para todos los esquemas de remuestreo: el número limitado de muestras verdaderas para la prueba, y eso es lo mismo para oob, validación cruzada o validación de conjuntos. Las iteraciones/repeticiones permiten reducir la varianza causada por la inestabilidad de los modelos (sustitutos), pero no la incertidumbre de la varianza debida al tamaño limitado de la muestra total.
Por lo tanto, suponiendo que se realice un número suficientemente grande de iteraciones/repeticiones N, no esperaría diferencias prácticamente relevantes en el rendimiento de estos esquemas de validación.
Sin embargo, un esquema de validación puede encajar mejor con el escenario que intenta simular el remuestreo.
2 votos
Si la pérdida se define por observación (por ejemplo, el error al cuadrado de una observación concreta), la pérdida media será la misma en ambos casos. Me pregunto entonces en qué situaciones la pérdida no se define por observación, sino que es una función de todo un conjunto de observaciones a la vez. ¿Quizás la mediana del error por trozo? Entonces habría que pensar en cómo difiere eso entre los dos escenarios.
1 votos
@RichardHardy No estoy seguro. ¿Quizás estimaciones basadas en la relación, como las estadísticas del área bajo el ROC (AUC)? El error de la mediana seguro.
0 votos
@RichardHardy Incluso en el caso simple el procedimiento 1 parece ser el eficiente, ya que parece $N$ debe ser grande (como en el bootstrap) para controlar la varianza de la estimación de las pérdidas, por lo que se requieren muchos más ajustes del modelo. ¿O me estoy equivocando en alguna parte?
0 votos
Piense en el caso más sencillo: pérdida al cuadrado como función de pérdida, 2 pliegues y 2 observaciones por pliegue: $(x_{1,1},x_{1,2})$ , $(x_{21,},x_{2,2})$ y los correspondientes errores de previsión $e_{ij}$ . No importa el procedimiento que utilice ya que en ambos casos obtengo $\text{MSE}=\frac{1}{2}(\frac{1}{2}(e_{1,1}^2+e_{1,2}^2)+\frac{1}{2}(e_{2,1}^2+e_{2,2}^2))=\frac{1}{4}(e_{1,1}^2+e_{1,2}^2+e_{2,1}^2+e_{2,2}^2)$ .
0 votos
@tomka 1) ¿He entendido bien que la diferencia está en los puntos 4 y 5? 2) Qué estadísticas de pérdidas se permiten en
xbart
? El método es ciertamente incorrecto para el RMSE que es subaditivo.0 votos
Qué
xbart
parece completamente razonable. Exento de Kuhn & Johnson, "Applied Predictive Modeling" (Sect. 4.4) que está de acuerdo con esta "media de $k$ " para una triple validación cruzada: " Las estimaciones de rendimiento, como la tasa de error o $R^2$ se calculan a partir de cada conjunto de muestras retenidas. La media de las tres estimaciones de rendimiento sería la estimación de validación cruzada del rendimiento del modelo. " O de la obra de Wasserman "All of Statistics" (Sección 13.6): " Este proceso se repite para cada uno de los $k$ grupos y las estimaciones de riesgo resultantes se promedian. "0 votos
@Jim 1) Sí, efectivamente. 2) Tasa de clasificación errónea para los factores y pérdida al cuadrado para las variables continuas. Como ha señalado Richard Hardy, los procedimientos son equivalentes en estos casos. Sin embargo, el ajuste $N$ modelos tardará más que la adaptación $K$ modelos, como normalmente $K<N$ .
0 votos
@usr11852 Lo siento pero creo que hay un malentendido. Las comillas se refieren todas al procedimiento 1 pero no al 2.
0 votos
@RichardHardy Sí, en este caso es equivalente. Pero hay que tener en cuenta el gran número de modelos que hay que ajustar en el procedimiento 2 en comparación con el 1. Mientras tanto, el autor del paquete respondió y llamó a su procedimiento 2 "Monte-Carlo Cross-Validation".
0 votos
@tomka, viendo tu descripción de los dos procedimientos, parece que el número de modelo que se ajusta es el mismo. La única diferencia es en qué fase se calcula el estadístico de pérdidas.
0 votos
@RichardHardy El procedimiento 1 calcula la pérdida una vez en cada caso seguro. El procedimiento 2 parece hacerlo sólo si $N$ es grande. Por ejemplo, $K=10=N$ el segundo procedimiento no utiliza probablemente todos los casos para las pruebas. Creo que esta diferencia debe afectar a las propiedades de la varianza de las estimaciones de pérdidas. Pero esta es básicamente mi pregunta.
0 votos
¡@tomka, ohhh! Me perdí la diferencia en 4. entre los procedimientos...
0 votos
@tomka: He cometido el mismo error que Richard. Lo siento.