8 votos

¿Es válido el procedimiento de validación cruzada de Monte Carlo?

Pensé que Validación cruzada K-fold consiste en los siguientes pasos.

  1. Dividir los datos aleatoriamente en $K$ trozos.
  2. Encajar en $K-1$ trozos.
  3. Predicción sobre el trozo restante. Mantener las predicciones.
  4. Repetir 2-3 para todos los remanentes $K-1$ combinaciones de la $K$ trozos que omiten 1 trozo.
  5. Evaluar la estadística de pérdidas que compara todas las predicciones con los valores reales.

Ahora he visto ( xbart en paquete dbarts ) el siguiente procedimiento:

  1. Dividir los datos aleatoriamente en $K$ trozos.
  2. Encajar en $K-1$ trozos.
  3. Predicción sobre el trozo restante. Evaluar la estadística de pérdidas y mantenerla.
  4. Repite 1-3 $N$ tiempos.
  5. Promedio de la $N$ estadísticas de pérdidas o pool de alguna otra manera.

Observe la diferencia en los pasos 4 y 5.

El primer procedimiento es estándar y se recomienda en los principales libros de texto. El segundo procedimiento parece nuevo. No veo inmediatamente por qué no hacerlo, pero no parece óptimo en términos de varianza. ¿Hay argumentos a favor o en contra del segundo procedimiento?

El segundo enfoque se implementa en el paquete citado anteriormente y me pregunto si es incorrecto hacerlo.

2 votos

Si la pérdida se define por observación (por ejemplo, el error al cuadrado de una observación concreta), la pérdida media será la misma en ambos casos. Me pregunto entonces en qué situaciones la pérdida no se define por observación, sino que es una función de todo un conjunto de observaciones a la vez. ¿Quizás la mediana del error por trozo? Entonces habría que pensar en cómo difiere eso entre los dos escenarios.

1 votos

@RichardHardy No estoy seguro. ¿Quizás estimaciones basadas en la relación, como las estadísticas del área bajo el ROC (AUC)? El error de la mediana seguro.

0 votos

@RichardHardy Incluso en el caso simple el procedimiento 1 parece ser el eficiente, ya que parece $N$ debe ser grande (como en el bootstrap) para controlar la varianza de la estimación de las pérdidas, por lo que se requieren muchos más ajustes del modelo. ¿O me estoy equivocando en alguna parte?

8voto

cbeleites Puntos 12461

Respuesta corta: no es ni malo ni nuevo.


Hace 15 años, cuando preparábamos un artículo*, hablamos de este esquema de validación con el nombre de "validación de conjuntos", pero al final nunca nos referimos a él porque no lo encontramos en la práctica.

Wikipedia se refiere al mismo esquema de validación como validación de submuestreo aleatorio repetido o validación cruzada de Monte Carlo

Desde un punto de vista teórico, el concepto nos interesaba porque

  • es otra interpretación de los mismos números que se suele denominar hold-out (sólo el modelo para el que se utiliza la estimación es diferente: las estimaciones hold-out se utilizan como estimación de rendimiento para exactamente el modelo probado, este conjunto o validación de Monte Carlo trata el modelo o modelos probados como modelo(s) sustituto(s) y interpreta el mismo número que la estimación del rendimiento de un modelo construido sobre todo el conjunto de datos, como se suele hacer con la validación cruzada o con las estimaciones de validación fuera de la base)
  • y está en algún punto intermedio
    • técnicas de validación cruzada más comunes (remuestreo con reemplazo, interpretación como estimación para el modelo de datos completos),
    • hold-out (ver arriba, mismo cálculo + números, típicamente sin N iteraciones/repeticiones, aunque y diferente interpretación)
    • y out-of-bootstrap (las N iteraciones/repeticiones son típicas para out-of-bootstrap, pero nunca he visto que se aplique a hold-out y [desafortunadamente] rara vez se hace con validación cruzada).

* Beleites, C.; Baumgartner, R.; Bowman, C.; Somorjai, R.; Steiner, G.; Salzer, R. & Sowa, M. G. Variance reduction in estimating classification error using sparse datasets, Chemom Intell Lab Syst, 79, 91 - 100 (2005).
El error de "validación del conjunto" para N = 1 está oculto en la fig. 6 (es decir, su sesgo + varianza pueden reconstruirse a partir de los datos dados, pero no se dan explícitamente).


pero no parece óptimo en términos de varianza. ¿Hay argumentos a favor o en contra del segundo procedimiento?

Bien, en el documento anterior encontramos el error total (sesgo² + varianza) de out-of-bootstrap y repeated/iterated $k$ -La validación cruzada doble es bastante similar (con oob teniendo una varianza algo más baja pero un sesgo más alto - pero no hemos hecho un seguimiento para comprobar si/cuánto de esta compensación se debe al remuestreo con/sin reemplazo y cuánto se debe a la diferente proporción de división de aproximadamente 1 : 2 para oob).
Tenga en cuenta, sin embargo, que estoy hablando de la precisión en situaciones de tamaño de muestra pequeño, donde el contribuyente dominante a la incertidumbre de la varianza es el mismo para todos los esquemas de remuestreo: el número limitado de muestras verdaderas para la prueba, y eso es lo mismo para oob, validación cruzada o validación de conjuntos. Las iteraciones/repeticiones permiten reducir la varianza causada por la inestabilidad de los modelos (sustitutos), pero no la incertidumbre de la varianza debida al tamaño limitado de la muestra total.
Por lo tanto, suponiendo que se realice un número suficientemente grande de iteraciones/repeticiones N, no esperaría diferencias prácticamente relevantes en el rendimiento de estos esquemas de validación.

Sin embargo, un esquema de validación puede encajar mejor con el escenario que intenta simular el remuestreo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X