4 votos

Pruebas de significación de la cruz-validar la exactitud de la clasificación: arrastrando los pies vs prueba binomial

Tengo un conjunto de datos con 2 clases y de cierta manera para construir un clasificador binario. Quiero medir su rendimiento y para probar si está significativamente por encima del nivel de oportunidad. Yo medir su desempeño con la repetición de la validación cruzada (ver más abajo). Mi pregunta es: ¿cómo probar la significación?

Aquí está mi cruz-procedimiento de validación. Yo uso 100 veces estratificado de Monte Carlo de validación cruzada (no estoy exactamente seguro de que es el término correcto, aunque, algunas personas parecen llamar boostrap, o fuera de bootstrap, o dejar el grupo a cabo la validación cruzada): en cada una de las veces que me a seleccionar aleatoriamente $K=4$ de los casos de prueba, 2 de cada clase, entrenar el clasificador en el resto de los datos, y clasificar estos 4 casos. Digamos que llego $a_i$ correcto clasificaciones. Esto se repite a lo $N=100$ tiempos, y por lo tanto, obtener un número total de clasificaciones correctas $A = \Sigma a_i$. Me informe significa que la exactitud de la clasificación $A/400$ y la desviación estándar de individuo precisiones $a_i/4$.

  • Nota 1: Por las razones que creo que no son muy importantes aquí no puedo aumentar el $K$ y no se puede utilizar la costumbre de k-fold cross-validation, por lo que este método de Monte Carlo es el único posible para mí. La varianza de mi estimador es bastante grande, pero yo no tengo nada más que hacer.
  • Nota 2: @FrankHarrel diría que la exactitud de la clasificación es un "discontinuo incorrecto regla de puntuación". Yo lo sé, pero en este caso en particular estoy bien con ella. Yo no soy la optimización de cualquier modelo de aquí, mi clasificador ya está dado.

Ahora, ingenuamente, yo creo que un azar clasificador podría predecir cada caso con una probabilidad de 50%, por lo que el número de clasificaciones correctas bajo la hipótesis nula de nivel de oportunidad clasificador sería $\mathrm{Binom}(400, 0.5) \approx \mathcal{N}(200,100)$, por lo que simplemente puedo probar si mi $A$ está en la parte superior $\alpha$% (por ejemplo, 1%) percentil de este binomio/distribución normal.

Sin embargo, he decidido hacer una transposición de la prueba. Shuffle mis etiquetas, a continuación, utilizar todo el procedimiento anterior con 100 pliegues para obtener la media barajan exactitud $B_j$, y repetir esta barajando $M=100$ veces. El propósito es muestra de precisiones bajo la hipótesis nula. Después de obtener el 100 valores de $B_j$, miro a su distribución. La media se encuentra muy cerca de 200, lo cual es bueno. Sin embargo, la varianza es mucho mayor que 100, es de alrededor de 1500. No entiendo cómo es posible.

Después miré más de cerca, me di cuenta de que dentro de cada uno shuffle de la varianza de la correcta clasificaciones de más de 100 pliegues es de alrededor de 1, como se esperaba: $4*0.5*(1-0.5)=1$. Pero dentro de algunos baraja la media del número de clasificaciones correctas es un poco por debajo de los 2, y en el interior de otra baraja que es bastante un poco más de 2. Esta variación hace que la varianza de $B_j$ a ser tan alta. En contraste, si dentro de cada shuffle yo uso un verdaderamente aleatorios clasificador en lugar del clasificador construido en un conjunto de entrenamiento de acuerdo a mi método, luego me $B_j$ bien siguiendo $\mathcal{N}(200,100)$.

¿Cómo es posible? Debo usar binomial o distribución empírica para el estadístico de prueba? La diferencia es muy grande. Si debo utilizar el empírica, hay alguna manera de alguna manera aproximada sin realizar realmente la baraja (que toma las edades)?

Actualización

En realidad hay una tercera vía para la prueba de significación que viene a la mente: puedo mirar el intervalo de confianza de mi $A$ y ver si se excluye a los 200. No hay necesidad de hacer ninguna prueba binomial, sin necesidad de cualquier arrastrando los pies. Sin embargo, estoy confundido acerca de lo que la varianza me debe construir el intervalo de confianza al: es la desviación estándar de $a_i$ o el error estándar de la media de $a_i$? La diferencia es, por supuesto, enorme. Si el número total de muestras es grande, mi Monte Carlo pliegues pueden ser asumidas para ser independientes, y supongo que puedo tomar error estándar de la media de $a_i$. Pero si el número total de muestras no es tan grande, que no son independientes ya. Por otro lado, la desviación estándar es demasiado grande para ser útil para las pruebas. Parece que tendría que dividir la varianza de $a_i$ por la raíz cuadrada del número efectivo de pliegues (que sería de menos de 100), pero no tengo idea de cómo hacer una estimación.

3voto

Ahsan Puntos 43

Radmacher y sus colegas (J. Comput. Biol. 9:505-511) describe un proceso para calcular la importancia de una tasa de error. Nos permutar las etiquetas de clase (unas mil veces) y repetir la totalidad de la cruz-procedimiento de validación para evaluar la probabilidad de producir una cruz validado tasa de error tan pequeño como el observado uno. Un concepto relacionado con el de la pregunta actual es que los resúmenes de los pliegues de la validación cruzada no son independientes, y esto presenta dificultades en la obtención de intervalos de confianza y p-valores. Esto es discutido por Jiang y sus colegas (Stat Appl Genet Mol Biol. 2008;7(1)). También tenga en cuenta que un "significativo" índice de errores de medida es un desnudo-requisito mínimo para que una regla de predicción y no dice mucho acerca de su utilidad. Sin embargo, dado que las muestras pequeñas se utilizan a menudo y hay muchos problemas con las reglas de predicción, pero es útil como una comprobación de validez.

-1voto

zowens Puntos 1417

Esto no es realmente una respuesta a mi pregunta, pero me gustaría dar una explícita y muy simple de simulación de la demostración de los síntomas que he descrito, y no quiero saturar la pregunta demasiado.

Vamos a considerar absolutamente el caso más simple posible. Voy a tomar 400 unidimensional muestras: 200 son iguales a -1 y 200 son igual a +1. Todos los ejemplos que se encuentran en -1 pertenecen a la clase a, y todos los ejemplos que se encuentran en el +1 pertenece a la clase B. El clasificador medirá la media (centroide) de cada clase y asignar a cada muestra de ensayo para la clase cuyo centro de gravedad está más cerca. Nada puede ser más simple que eso. Aquí está una ilustración (de la"a" significa 200 puntos desde la clase a, "B" significa que 200 puntos de la clase B):

---------UN-----------B--------->

Que puedo hacer exactamente el mismo Monte Carlo de validación cruzada como he descrito anteriormente: I seleccionar aleatoriamente $K=4$ de los casos de prueba, 2 de cada clase, entrenar el clasificador en el resto del conjunto de entrenamiento, y clasificar estos cuatro; esto se repite 100 veces. Obviamente el número de clasificación correcta es de 400, es decir, el 100% de precisión. Especialmente para @cbeleites también puedo ejecutar un habitual de 100 veces (estratificado) CV, la precisión es de 100%. Tenga en cuenta que no tiene sentido para recorrer este CV, porque nada va a cambiar.

Y ahora vamos a hacer la baraja. Yo de forma aleatoria reproducción aleatoria de las etiquetas, repetir exactamente el mismo procedimiento y obtener el número correcto de las clasificaciones $B_j$. A continuación, mezclar las etiquetas de nuevo, y repetir 100 veces. Resultados: la media de $B_j$ es de alrededor de 200 (muy cerca, como 198-202 en diferentes carreras), por lo que nivel de oportunidad. Pero la varianza de $B_j$ está en el rango de 400-900 (en diferentes carreras). Esto es cierto tanto para Monte Carlo CV y estándar de 100 veces CV. La varianza es siempre MUCHO mayor que el esperado binomio de varianza que debe ser igual a 400*0.5*(1-0.5) = 100.

Ahora estoy con vistas a un completo estúpido error (que es absolutamente posible!), o tenemos un gran problema con todo el razonamiento de intervalo de Confianza para la cruz-validar la exactitud de la clasificación, porque el binomio intervalos no tiene ningún sentido. Por ejemplo, si me despojo de mi ideal de clase de la separación por reetiquetado de 80 puntos en de la clase a a B, y viceversa, entonces mi número real de decodificado muestras se convierte en 240. La estabilidad a lo largo de las iteraciones de CV es perfecto. El binomio intervalo de confianza binofit(240,400) es [0.55, 0.65] que excluye a 0.5 de modo que podemos concluir que la decodificación es significativo. Pero la varianza de la baraja correcta de los decodificadores es todavía, en promedio, alrededor de 500-600, por lo que la desviación estándar es de alrededor de digamos 22, por lo que el 95% de intervalo para la hipótesis nula de decodificación aleatorios es de alrededor de 200$\pm$45, que incluye 240, lo que significa que no significativo.

Tan lejos como puedo ver este problema no tiene nada que ver con diferentes CV pliegues no ser independiente, es completamente diferente el problema que tiene que ver con la finita, el tamaño de la muestra. El más grande es el tamaño de la muestra, menor es la varianza de la $B_j$ (ahora estoy de vuelta a Monte Carlo de validación cruzada, donde todavía puede clasificar de 400 casos, incluso si el tamaño de la muestra es mucho mayor). Pero tengo que ir a tamaños de muestra por encima de 10000 para obtener la varianza de cerca de 100. Tales tamaños de muestra más allá de los realistas.

Actualización:

En los comentarios de arriba @julieth citó a un papel por Jiang et al. Calcular los Intervalos de Confianza para la Predicción de Error en Microarrays de Clasificación Mediante Remuestreo: "... la prueba [creo que se refieren a la "formación" -- ameba] en la que la predicción de la $i$-ésimo caso ha $n-2$ especímenes en común con el conjunto de entrenamiento en el que la predicción de la $j$-th se basa, por lo tanto, el número de errores de predicción no es binomial". En otras palabras, afirman que la razón por la que no binomiality es que la formación de conjuntos no son mutuamente excluyentes. Resulta, Nadeau y Bengio tienen un mamut 49 páginas de papel sobre la que llamó la Inferencia para la Generalización de Error en el que discutir exactamente este tema en detalle.

Yo no creo que en un primer momento, por lo que utiliza la simulación de arriba para comprobar esta afirmación. Si puedo aumentar el número total de muestras a 4000, puedo usar el de Monte Carlo CV procedimiento con 100 pliegues (cada vez que la clasificación de 4 casos de prueba) para obtener 400 predicciones. En la baraja de datos (he aumentado el número de baraja a 1000) el número promedio de clasificación correcta es de 199 y la varianza es 346: todavía un montón más de 100 aunque el tamaño de la muestra es ahora tan grande como 4000.

Pero ahora yo también puedo hacer lo siguiente: dividir mis 4000 muestras en 100 estratificado partes de 40 años, y en cada parte el uso de 36 muestras de predecir 4. Yo también recibirán 400 predicciones, pero esta vez todos los conjuntos de entrenamiento son mutuamente excluyentes. El resultado (también después de 1000 baraja): la media de 199, la varianza 98.

Wow! Nadeau, Bengio, y @julieth parece estar en lo cierto. Y binomial hipótesis parece estar equivocado. Me pregunto cuántos documentos hay por ahí el uso de binomio de intervalos de confianza y pruebas de...

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X