No tengo el libro de Fleiss a mano, así que todo esto es IIRC.
Respondiendo de momento a la pregunta de @JohnMoeller en los comentarios: la pregunta original es IMHO incontestable tal y como está.
Así que supongamos que tengo 30 muestras, y pruebo c1 y c2 en cada muestra, y registro la precisión de cada uno en cada muestra.
Haciendo esto, se obtiene una tabla de contingencia 2 x 2 que da el clasificador 1 correcto/incorrecto contra el clasificador 2 correcto/incorrecto. Que es el punto de partida para Prueba de McNemar . Así pues, se trata de una comparación por pares, que es más potente que comparar proporciones "independientes" (que no son completamente independientes si proceden de extracciones aleatorias de la misma muestra finita).
Ahora mismo no puedo buscar la "letra pequeña" de McNemar, pero 30 muestras no es mucho. Así que puede que incluso tenga que cambiar de McNemar's a Prueba exacta de Fisher [u otra cosa] que calcula las probabilidades binomiales.
Medios de proporciones:
No importa si se prueba un mismo clasificador 10 veces con 10 casos de prueba o una vez con todos esos 100 casos (la tabla 2 x 2 sólo cuenta todos los casos de prueba).
Si las 10 estimaciones de precisión para cada clasificador en la pregunta original se obtienen mediante una validación aleatoria o una validación cruzada 10 veces o una validación cruzada 10 veces, normalmente se asume que los 10 modelos alternativos calculados para cada clasificador son equivalentes (= tienen la misma precisión), por lo que los resultados de las pruebas se pueden agrupar*. Para la validación cruzada de 10 veces, se supone que el tamaño de la muestra de prueba es igual al número total de muestras de prueba. Para los demás métodos no estoy tan seguro: puede que se pruebe el mismo caso más de una vez. Dependiendo de los datos, el problema o la aplicación, esto no aporta tanta información como probar un caso nuevo.
*Si los modelos sustitutos son inestables, esta suposición se rompe. Pero esto se puede medir: Hacer iteraciones $k$ -validación cruzada doble. Cada ejecución completa proporciona una predicción para cada caso. Por lo tanto, si se comparan las predicciones para el mismo caso de prueba con varios modelos sustitutos diferentes, se puede medir la varianza causada por el intercambio de algunos de los datos de entrenamiento. Esta varianza se añade a la varianza debida al tamaño total finito de la muestra.
Coloque los resultados del CV iterado en una "matriz de clasificación correcta" en la que cada fila corresponda a un caso y cada columna a uno de los modelos alternativos. Ahora, la varianza a lo largo de las filas (eliminando todos los elementos vacíos) se debe únicamente a la inestabilidad de los modelos sustitutos. La varianza en las columnas se debe al número finito de casos que ha utilizado para probar este modelo sustitutivo. Digamos que tiene $k$ predicciones correctas de $n$ casos probados en una columna. La estimación puntual de la precisión es $\hat p = \frac{k}{n}$ está sujeta a variaciones $\sigma^2 (\hat p) = \sigma^2 (\frac{k}{n}) = \frac{p (1 - p)}{n}$ .
Compruebe si la varianza debida a la inestabilidad es grande o pequeña en comparación con la varianza debida al tamaño finito de la muestra de prueba.
0 votos
¿Probó los clasificadores con las mismas muestras, es decir, muestra1, c1(muestra1), c2(muestra1)? ¿O utilizó muestras diferentes para cada clasificador?
0 votos
La prueba t pareada sería adecuada en este caso.
1 votos
@lewellen: la precisión es una proporción: las pruebas t suelen ser no apropiado.
0 votos
@entropy: Antes de hacer nuevas preguntas, considera tomarte el tiempo de repasar tus preguntas antiguas y echar un vistazo a si podrías aceptar algunas respuestas (haciendo clic en esa marca de verificación).
0 votos
@cbeleites : ¿Puedes ampliar lo que sería ¿sería apropiado?
3 votos
@JohnMoeller: "diferencia de proporciones" sería un término de búsqueda, independiente o dependiente aún no lo sabemos. Si es emparejado: Test de McNemar. Supongo que la prueba t implica un tamaño de muestra más bien pequeño, por lo que posiblemente la aproximación normal no sea buena idea. Yo optaría por Métodos estadísticos para tasas y proporciones para buscar detalles.
0 votos
@cbeleites La verdad es que me interesa la respuesta a esta pregunta. Supongamos que tengo 30 muestras, y pruebo c1 y c2 en cada muestra, y registro la precisión de cada uno en cada muestra. Entonces estás diciendo que hacer una prueba t de las diferencias de precisiones es no ¿lo correcto? Creía que la estadística de proporciones sólo era adecuada cuando se analizaban un precisión a la vez, es decir, cuando estás probando la proporción como una estadística. Parece que estás diciendo que la proporción es la estadística correcta cuando estás probando significa de proporciones también.
2 votos
@JohnMoeller: Digo que cada precisión es una proporción. Si quieres compararlas, usa métodos para "diferencia de proporciones". He ampliado esto en una respuesta para evitar comentarios interminables.
0 votos
@JohnMoeller Selecciono una muestra nueva cada vez. ¿Es esto incorrecto?