5 votos

¿Por qué es mejor la validación cruzada k-fold que la validación verdadera k-times resampling?

Actualmente estoy trabajando en un libro de texto de aprendizaje automático y acabo de leer un poco sobre la validación cruzada k-fold, y me pregunto lo siguiente. Quiero estimar un parámetro, por ejemplo, un parámetro de penalización para un método de probabilidad penalizada. Para ello, puedo hacer dos cosas diferentes:

  1. Muestro los datos de entrenamiento para obtener $k$ pliegues igualmente grandes, y para cada pliegue utilizo los otros pliegues como datos de entrenamiento para obtener estimaciones para $y$ y comparo estas estimaciones con las reales $y$ del pliegue en cuestión. Esto, lo hago para cada elección interesante de mi parámetro, y elijo el parámetro que tiene el menor error, promediado sobre todos los pliegues y todos los miembros de cada pliegue.

  2. Muestro los datos de entrenamiento para obtener 2 conjuntos igualmente grandes, uno de los cuales utilizo como datos de entrenamiento para predecir el error del otro conjunto. Para cada lambda interesante, anoto el error medio. A continuación, vuelvo a muestrear los datos para obtener 2 conjuntos (diferentes) igualmente grandes, en los que repito el procedimiento anterior. Muestro $k$ veces en total, y promediarlas para obtener una estimación del mejor parámetro.

El segundo enfoque parece bastante ingenuo, y me pregunto si hay algo malo en él. ¿Hay razones, en general, para preferir el método 1 al 2? ¿Hay razones computacionales, o incluso estadísticas?

6voto

John Richardson Puntos 1197

El problema del segundo enfoque es que el conjunto de entrenamiento es más pequeño (la mitad de los datos disponibles) que en el enfoque de validación cruzada ((k-1)/k de los datos disponibles). Como la mayoría de los algoritmos de aprendizaje funcionan mejor cuantos más datos se entrenan, esto significa que el segundo enfoque da una estimación más pesimista del rendimiento de un modelo entrenado con todos los datos disponibles que el enfoque basado en la validación cruzada. Llevado a su extremo, donde k es el tamaño del conjunto de datos disponible (es decir, la validación cruzada de dejar de lado) da una estimación casi insesgada del rendimiento de la generalización.

Sin embargo, además del sesgo (si la estimación es sistemáticamente errónea), también existe la varianza (cuánto varía la estimación en función de la selección de datos sobre la que se calcula). Si utilizamos más datos para el entrenamiento, también se reduce la variabilidad del rendimiento del modelo resultante, pero quedan menos datos de prueba, por lo que aumenta la varianza de la estimación del rendimiento. Esto significa que suele haber un compromiso entre la varianza y el sesgo a la hora de determinar cuántos datos se pueden utilizar para el entrenamiento y para las pruebas en cada pliegue (es decir, en la práctica, la validación cruzada de dejar uno no es óptima, ya que, aunque es casi insesgada, tiene una varianza elevada, por lo que el estimador tiene un error mayor).

Cuantos más pliegues del procedimiento de remuestreo utilicemos, más podremos reducir la varianza del estimador. Con el muestreo dividido es fácil, sólo hay que aumentar el número de pliegues. En el caso de la validación cruzada, podemos realizarla repetidamente, eligiendo cada vez una partición diferente de los datos en k subconjuntos disjuntos y promediando. Yo suelo realizar 100 particiones aleatorias de prueba-entrenamiento (es decir, el segundo enfoque), pero utilizo una división del 90%/10% entre los datos de entrenamiento y los de prueba para reducir el sesgo del estimador.

4voto

lennon310 Puntos 1882

@Dikran ya ha proporcionado un análisis detallado. La validación cruzada le ayuda en la selección del modelo. Según la desigualdad de Hoeffding, el error esperado fuera de la muestra puede estimarse en función de su error de validación: $E_{out} \leq E_{val} + O(\sqrt \frac{lnM}{K})$ donde $M$ es el número de modelo, y $K$ es el número entre $N$ muestras elegidas para la validación. Como se puede ver el mayor $K$ puede hacer que el error fuera de la muestra esté mejor acotado en la estimación. Por otro lado, sin embargo, cuando se dibuja la curva de aprendizaje, muchas veces se encuentra un número de entrenamiento pequeño ( $N-K$ ) conducen a un gran error dentro de la muestra y al error de validación (sesgo), a medida que aumenta el número de entrenamiento, dos curvas convergen finalmente. Por lo tanto, existe un equilibrio entre $K$ y $N-K$ en realidad, y la regla general suele ser $K = \frac{N}{10}$ .

Una cosa más (puede que se salga un poco del tema): es posible que más muestras de entrenamiento no reduzcan la varianza, véase mi respuesta aquí .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X