28 votos

Estimaciones de la varianza en k-fold cross-validación

K-fold cross-validation puede ser usado para estimar la capacidad de generalización de un clasificador. Puedo (o debo) calcular un conjunto de varianza de la validación se ejecuta con el fin de obtener una mejor estimación de su varianza?

Si no, ¿por qué?

He encontrado documentos que hacen uso de la desviación estándar agrupada a través de la validación cruzada se ejecuta. También he encontrado documentos que se afirma explícitamente no hay ningún universal estimador para la validación de la varianza. Sin embargo, también he encontrado documentos que muestran algunas de varianza de los estimadores para la generalización de error (todavía estoy leyendo y tratando de entender esto). ¿Qué hace la gente realmente hacer (o informe) en la práctica?

EDIT: Cuando la CV es utilizado para medir el crudo error de clasificación (es decir, una muestra ha sido etiquetados correctamente o no; por ejemplo, verdadero o falso), entonces puede que no tenga sentido hablar de un conjunto de varianza. Sin embargo, estoy hablando del caso en el que la estadística nos estimación tiene una varianza definida. Así, para un determinado veces, podemos terminar con un valor de la estadística y de la varianza de la estimación. No parece correcto descartar esta información y considerar sólo la media estadística. Y si bien soy consciente de que me podía construir una varianza de estimación utilizando métodos bootstrap, (si no estoy muy equivocado) que de hacerlo aún ignoran el pliegue de varianzas y tome solamente la estadística de las estimaciones en cuenta (además de que requiere mucha más energía computacional).

13voto

cbeleites Puntos 12461

Pregunta muy interesante, voy a tener que leer los papeles que dar... Pero tal vez esto va a comenzar a nosotros en la dirección de una respuesta:

Yo suelo hacer frente a este problema de una manera muy pragmática manera: yo recorrer en el k-fold cross validation con new random divide y calcular el rendimiento como de costumbre para cada iteración. El total de las muestras de la prueba son las mismas para cada iteración, y las diferencias provienen de diferentes divisiones de los datos.

Esto me informe como por ejemplo, el percentil 5 a 95 de los resultados observados wrt. el intercambio de hasta el $\frac{n}{k} - 1$ de muestras para muestras nuevas y discutir como una medida para el modelo de la inestabilidad.

Nota al margen: yo de todos modos no pueden utilizar las fórmulas que necesitan el tamaño de la muestra. Como mis datos están agrupados o una estructura jerárquica (muchos similares, pero no de mediciones repetidas de un mismo caso, por lo general, varios [cien] diferentes lugares de la misma muestra) no sé el tamaño efectivo de la muestra.

comparación de arranque:

  • iteraciones uso aleatorio se divide.

  • la principal diferencia es el remuestreo (bootstrap) o sin (cv) de reemplazo.

  • el coste computacional es el mismo, como yo prefiero no de iteraciones de cv $\approx$ no de bootstrap iteraciones / k, es decir, calcular el total del mismo no de modelos.

  • bootstrap tiene ventajas sobre cv en términos de algunas propiedades estadísticas (asintóticamente correcta, posiblemente necesita menos iteraciones para obtener una buena estimación)

  • sin embargo, con cv tiene la ventaja de que tienes la garantía de que

    • el número de distintas muestras de formación es el mismo para todos los modelos (importante si se desea calcular las curvas de aprendizaje)
    • cada muestra se prueba exactamente una vez en cada iteración
  • algunos métodos de clasificación de descarte de muestras repetidas, de modo de arranque no tiene sentido

Varianza para el rendimiento

respuesta corta: sí que tiene sentido hablar de la varianza en la situación en la que sólo {0,1} resultados de existir.

Eche un vistazo a la distribución binomial (k = éxitos, n = pruebas, p = true probabilidad de éxito = promedio de k / n):

$\sigma^2 (k) = np(1-p)$

La varianza de proporciones (tales como la tasa de éxito, tasa de errores, sensibilidad, TPR,..., usaré $p$ a partir de ahora y $\hat p$ para el valor observado en un test) es un tema que llena todo de libros...

  • Fleiss: Métodos Estadísticos para las Tasas y Proporciones
  • Forthofer y Lee: Bioestadística tiene una buena introducción.

Ahora, $\hat p = \frac{k}{n}$ y por tanto:

$\sigma^2 (\hat p) = \frac{p (1-p)}{n}$

Esto significa que la incertidumbre de la medición de la clasificador de rendimiento sólo depende del rendimiento real de p de la prueba del modelo y el número de muestras de prueba.

En la validación cruzada usted asume

  1. que los k "sustituto" de los modelos tienen el mismo rendimiento real como el "verdadero" modelo que generalmente se construyen a partir de todas las muestras. (El desglose de este supuesto es el conocido sesgo pesimista).

  2. que los k "sustituto" de los modelos tienen el mismo rendimiento real (son equivalentes, se han estable predicciones), por lo que se le permite a la piscina de los resultados de la k pruebas.
    Por supuesto, entonces no sólo la k "sustituto" de los modelos de una iteración de cv pueden ser agrupadas pero el ki de los modelos de i iteraciones de k-fold cv.

Por qué repetir?

Lo principal de las iteraciones decirles es que el modelo (predicción) la inestabilidad, es decir, la varianza de las predicciones de los diferentes modelos de la misma muestra.

Usted puede informar directamente a la inestabilidad, como por ejemplo, la varianza en la predicción de un caso de prueba, independientemente de que la predicción es correcta o un poco más, como, indirectamente, la varianza de la $\hat p$ para diferentes cv iteraciones.

Y sí, esta es una información importante.

Ahora, si los modelos son perfectamente estables, todas las $n_{bootstrap}$ o $k \cdot n_{iter.~cv}$ produciría exactamente la misma predicción para una muestra dada. En otras palabras, todas las iteraciones tendría el mismo resultado. La varianza de la estimación no sería reducido por la iteración (asumiendo $n - 1 \approx n$). En ese caso, la hipótesis 2 de arriba se cumple y sólo están sujetos a $\sigma^2 (\hat p) = \frac{p (1-p)}{n}$, siendo n el número total de muestras analizadas en todos los k pliegues de la cv.
En ese caso, las iteraciones no son necesarios (excepto para la demostración de la estabilidad).

Usted puede entonces construir intervalos de confianza para el verdadero rendimiento de la $p$ de lo observado ninguna de éxitos $k$ $n$ pruebas. Así que, estrictamente, no hay necesidad de informe de la varianza de la incertidumbre de si $\hat p$ $n$ son reportados. Sin embargo, en mi campo, no muchas personas son conscientes de que ni siquiera tienen un intuitivo control sobre cómo los grandes de la incertidumbre que es con lo que el tamaño de la muestra. Así que te recomiendo para que informe de todos modos.

Si usted observa el modelo de la inestabilidad, que el conjunto de la media es una mejor estimación del verdadero desempeño. La varianza entre las iteraciones es una fuente importante de información, y se podría comparar a la espera de mínima varianza para un examen conjunto de tamaño n con el rendimiento real rendimiento promedio en todas las iteraciones.

1voto

clancy Puntos 16

Recuerde CV es sólo una estimación y nunca puede representar la "real" de la generalización de error. Dependiendo del tamaño de la muestra (que tendrán un impacto en el número de pliegues o doblar el tamaño) puede ser muy limitada en su capacidad para calcular las estimaciones de los parámetros de la distribución de la generalización de error. En mi opinión (y he visto que pretendía en diversos libros de texto, 'el Descubrimiento de Conocimiento con Máquinas de Soporte Vectorial'-Lutz Hamel), usted puede hacer algunas de arranque variante de CV para estimar la distribución de la generalización de error, pero un estándar de 10-1 (por ejemplo) una vez fuera de la CV no le dará los puntos de datos suficientes para hacer inferencias acerca de la verdadera gen-error. Arranque requiere que usted tome varias muestras con reemplazo de su entrenamiento/prueba/val efectivamente haciendo múltiples (digamos 1000 o así) 10-1 (o lo que sea) CV pruebas. A continuación, tomar la muestra distribtion de los promedios para cada uno de los CV de la prueba como una estimación de la distribución de muestreo de la media para la población de la CV errores y a partir de esto, se puede estimar la distribución de los parámetros es decir, la media, la mediana, estándar mínimo máximo Q1 Q3 etc... Es un poco de trabajo, y en mi opinión sólo es realmente necesario si su solicitud es importante/arriesgado lo suficiente como para justificar el trabajo extra. es decir, tal vez en un entorno de marketing donde el negocio es simplemente feliz de ser mejor que el azar, a continuación, tal vez no sea necesario. PERO si usted está tratando de evaluar al paciente reacciones a los medicamentos de alto riesgo o predecir las expectativas de ingresos para las grandes inversiones que bien puede ser prudente para llevarlo a cabo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X