¿Cómo encontrar una diferencia de significación estadística de los resultados de la clasificación?

Question

¿Cómo encontrar una diferencia de significación estadística de los resultados de la clasificación?

Preguntado el 13 de Septiembre, 2018: Cuando se hizo la pregunta
2074 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Estoy tratando de comparar algunas métricas en el "mismo conjunto de datos" . Así que calculé algunas medidas de rendimiento y obtuve los resultados de cada métrica.

Sólo tengo un conjunto de datos. Construyo un modelo de clasificación utilizando KNN, pero con KNN ( método no paramétrico ) he utilizado 7 métricas de distancia, por ejemplo la distancia euclidiana, etc.

Mi pregunta es cómo saber si hay diferencias significativas entre los resultados. ¿Hay alguna prueba estadística que pueda ayudar a encontrar la diferencia estadísticamente significativa de cada fila en la tabla siguiente? Hacer la prueba t y ANOVA funciona para eso.

Por ejemplo, en la tabla siguiente. ¿Existe una diferencia estadísticamente significativa entre la exactitud 95,43, 95,78, 96,66 ,... y así sucesivamente para otras medidas de rendimiento como la sensibilidad, la puntuación F1, etc.? Tampoco estoy familiarizado con los valores p de las pruebas Kappa y Mcnemar de los resultados de clasificación.

Nota: He consultado otras preguntas relacionadas, pero no he encontrado una respuesta útil. Además, mi pregunta no se refiere únicamente a la precisión, sino también a otras medidas de rendimiento.

Agradeceré mucho una respuesta informativa detallada con una aplicación (en R si es posible).

Preguntado el 13 de Septiembre, 2018 por izogfif

Answer 1

2 Respuestas

Answer 2

5voto

Jenne Puntos 57

Descargo de responsabilidad: creo que esto responde a las preguntas del OP sólo hasta cierto punto.

Había visto que la prueba post hoc de Friedman se utilizaba en estos escenarios. Por ejemplo: digamos que en un conjunto de datos particular A - el algoritmo X da $A_x$ de precisión, el algoritmo Y da $A_y$ de precisión y el algoritmo Z da $A_z$ % de precisión. Del mismo modo, en el conjunto de datos B, el algoritmo X da $B_x$ de precisión, el algoritmo Y da $B_y$ de precisión y el algoritmo Z da $B_z$ % de precisión. Digamos que tenemos 5 conjuntos de datos (A, B, C, D y E) en los que se han ejecutado estos algoritmos.

En este caso, se puede utilizar la prueba post hoc de Friedman para comprobar si la precisión del algoritmo X es significativamente diferente de la de los demás (Y y Z). La prueba de Friedman es similar al ANOVA pero sin los supuestos de normalidad. Por suerte, en R es bastante sencillo implementar esta prueba.

Respondido el 17 de Septiembre, 2018 por Jenne (57 Puntos )

Answer 3

4voto

EdM Puntos 5716

No creo que se pueda conseguir exactamente lo que se quiere con respecto al conjunto de KNN modelos basado en diferentes métricas de distancia en su único conjunto de datos, pero puede intentar evaluar el rendimiento relativo del enfoques de modelado en función de las diferentes métricas de distancia. Sin embargo, tendrás que hacer dos ajustes.

Gran parte de lo que sigue se basa en el debate sobre esta página .

En primer lugar, debe evaluar el rendimiento con una regla de puntuación adecuada como la Puntuación de Brier en lugar de precisión, especificidad, sensibilidad y puntuación F1. Estas medidas son notoriamente deficientes para comparar modelos, y hacen suposiciones implícitas sobre las compensaciones de costes entre los diferentes tipos de errores de clasificación.* La puntuación Brier es efectivamente el error cuadrático medio entre la predicción probabilidades de la pertenencia a la clase y de la pertenencia real. Tendrá que ver cómo su software KNN proporciona acceso a las probabilidades de clase, pero esto es típicamente posible como en este sklearn función .

En segundo lugar, en lugar de limitarse a ajustar el modelo una vez a los datos, hay que ver la eficacia del proceso de modelado funciona en la aplicación repetida a su conjunto de datos. Una forma de proceder sería trabajar con múltiples muestras bootstrap, por ejemplo de unos cientos a mil, de los datos. Para cada muestra bootstrap como conjunto de entrenamiento, construya modelos KNN con cada una de sus métricas de distancia, y luego evalúe su rendimiento en todo el conjunto de datos original como conjunto de prueba. La distribución de las puntuaciones de Brier para cada tipo de modelo a lo largo de unos cientos o miles de bootstraps podría entonces indicar diferencias significativas, entre los modelos basados en diferentes métricas de distancia, en términos de esa regla de puntuación adecuada.

Sin embargo, incluso este enfoque tiene sus límites; véase este respuesta de cbeleities para seguir discutiendo.

*El uso de la precisión (fracción de casos asignados correctamente) como medida del rendimiento del modelo supone implícitamente que los falsos negativos y los falsos positivos tienen la misma importancia. Véase esta página para seguir discutiendo. En las aplicaciones prácticas, esta suposición puede ser poco útil. Un ejemplo es el sobrediagnóstico y sobretratamiento del cáncer de próstata Los falsos positivos en las pruebas diagnósticas habituales han llevado a muchos hombres que probablemente no hayan muerto de este cáncer a someterse, sin embargo, a terapias que alteran la vida con efectos secundarios a menudo indeseables.

El Puntuación F1 no tiene en cuenta los casos/índices negativos verdaderos, lo que podría ser crítico en algunas aplicaciones. Los valores de sensibilidad y especificidad dependen de un elección de la compensación entre ellos. A veces, el programa informático se encarga de realizar esta compensación de forma silenciosa, por ejemplo, estableciendo el límite de clasificación en la regresión logística en un valor predicho de $p>0.5$ . Las suposiciones explícitas u ocultas que subyacen a todas estas medidas significan que pueden verse afectadas drásticamente por pequeños cambios en las suposiciones.

El enfoque más útil en general es producir un buen modelo de pertenencia a la clase probabilidades y, a continuación, utilizar los juicios sobre los costes de las compensaciones para informar de las asignaciones finales de las clases previstas (si es necesario). La puntuación de Brier y otras reglas de puntuación adecuadas proporcionan medidas continuas de la calidad de un modelo de probabilidad que se optimizan cuando el modelo es el verdadero.

Respondido el 22 de Septiembre, 2018 por EdM (5716 Puntos )

¿Cómo encontrar una diferencia de significación estadística de los resultados de la clasificación?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cómo encontrar una diferencia de significación estadística de los resultados de la clasificación?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: