Tengo un conjunto de datos con 2 clases y de cierta manera para construir un clasificador binario. Quiero medir su rendimiento y para probar si está significativamente por encima del nivel de oportunidad. Yo medir su desempeño con la repetición de la validación cruzada (ver más abajo). Mi pregunta es: ¿cómo probar la significación?
Aquí está mi cruz-procedimiento de validación. Yo uso 100 veces estratificado de Monte Carlo de validación cruzada (no estoy exactamente seguro de que es el término correcto, aunque, algunas personas parecen llamar boostrap, o fuera de bootstrap, o dejar el grupo a cabo la validación cruzada): en cada una de las veces que me a seleccionar aleatoriamente $K=4$ de los casos de prueba, 2 de cada clase, entrenar el clasificador en el resto de los datos, y clasificar estos 4 casos. Digamos que llego $a_i$ correcto clasificaciones. Esto se repite a lo $N=100$ tiempos, y por lo tanto, obtener un número total de clasificaciones correctas $A = \Sigma a_i$. Me informe significa que la exactitud de la clasificación $A/400$ y la desviación estándar de individuo precisiones $a_i/4$.
- Nota 1: Por las razones que creo que no son muy importantes aquí no puedo aumentar el $K$ y no se puede utilizar la costumbre de k-fold cross-validation, por lo que este método de Monte Carlo es el único posible para mí. La varianza de mi estimador es bastante grande, pero yo no tengo nada más que hacer.
- Nota 2: @FrankHarrel diría que la exactitud de la clasificación es un "discontinuo incorrecto regla de puntuación". Yo lo sé, pero en este caso en particular estoy bien con ella. Yo no soy la optimización de cualquier modelo de aquí, mi clasificador ya está dado.
Ahora, ingenuamente, yo creo que un azar clasificador podría predecir cada caso con una probabilidad de 50%, por lo que el número de clasificaciones correctas bajo la hipótesis nula de nivel de oportunidad clasificador sería $\mathrm{Binom}(400, 0.5) \approx \mathcal{N}(200,100)$, por lo que simplemente puedo probar si mi $A$ está en la parte superior $\alpha$% (por ejemplo, 1%) percentil de este binomio/distribución normal.
Sin embargo, he decidido hacer una transposición de la prueba. Shuffle mis etiquetas, a continuación, utilizar todo el procedimiento anterior con 100 pliegues para obtener la media barajan exactitud $B_j$, y repetir esta barajando $M=100$ veces. El propósito es muestra de precisiones bajo la hipótesis nula. Después de obtener el 100 valores de $B_j$, miro a su distribución. La media se encuentra muy cerca de 200, lo cual es bueno. Sin embargo, la varianza es mucho mayor que 100, es de alrededor de 1500. No entiendo cómo es posible.
Después miré más de cerca, me di cuenta de que dentro de cada uno shuffle de la varianza de la correcta clasificaciones de más de 100 pliegues es de alrededor de 1, como se esperaba: $4*0.5*(1-0.5)=1$. Pero dentro de algunos baraja la media del número de clasificaciones correctas es un poco por debajo de los 2, y en el interior de otra baraja que es bastante un poco más de 2. Esta variación hace que la varianza de $B_j$ a ser tan alta. En contraste, si dentro de cada shuffle yo uso un verdaderamente aleatorios clasificador en lugar del clasificador construido en un conjunto de entrenamiento de acuerdo a mi método, luego me $B_j$ bien siguiendo $\mathcal{N}(200,100)$.
¿Cómo es posible? Debo usar binomial o distribución empírica para el estadístico de prueba? La diferencia es muy grande. Si debo utilizar el empírica, hay alguna manera de alguna manera aproximada sin realizar realmente la baraja (que toma las edades)?
Actualización
En realidad hay una tercera vía para la prueba de significación que viene a la mente: puedo mirar el intervalo de confianza de mi $A$ y ver si se excluye a los 200. No hay necesidad de hacer ninguna prueba binomial, sin necesidad de cualquier arrastrando los pies. Sin embargo, estoy confundido acerca de lo que la varianza me debe construir el intervalo de confianza al: es la desviación estándar de $a_i$ o el error estándar de la media de $a_i$? La diferencia es, por supuesto, enorme. Si el número total de muestras es grande, mi Monte Carlo pliegues pueden ser asumidas para ser independientes, y supongo que puedo tomar error estándar de la media de $a_i$. Pero si el número total de muestras no es tan grande, que no son independientes ya. Por otro lado, la desviación estándar es demasiado grande para ser útil para las pruebas. Parece que tendría que dividir la varianza de $a_i$ por la raíz cuadrada del número efectivo de pliegues (que sería de menos de 100), pero no tengo idea de cómo hacer una estimación.