16 votos

Comprobar si la mejora en la precisión es importante

Supongamos que tengo un algoritmo que clasifica las cosas en dos categorías. Puedo medir la exactitud del algoritmo en decir 1000 de la prueba de las cosas, supongamos que el 80% de las cosas están clasificados correctamente.

Supongamos puedo modificar el algoritmo de alguna manera para que el 81% de las cosas están clasificados correctamente.

Puede estadísticas me dicen nada acerca de si mi mejora para el algoritmo es estadísticamente significativa? Es el concepto de significación estadística relevante en esta situación? Por favor, me apunte en la dirección de algunos de los recursos que podrían ser relevantes.

Muchas Gracias.

4voto

unk2 Puntos 36

En resumen, sí. La significación estadística es relevante aquí. Usted está buscando en el error de clasificación (o, como se la vas a dar aquí precisión = 1 - error de clasificación). Si se compara el classificators en diferentes 1000 muestras que usted puede simplemente utilizar la prueba binomial, si es la misma 1000 muestras que usted necesita para utilizar la prueba de McNemar test. Tenga en cuenta que simplemente probar el error de clasificación en esta forma es óptimo debido a que suponga que el error de clasificación es independiente de la verdad de la clase o que la proporción de la verdadera clases es la misma a través de sus potenciales aplicaciones.

Esto significa que usted debe echar un vistazo a medidas como la tasa de verdaderos positivos, falsos positivos o de las AUC. En qué medida y cómo probarlo, depende de la salida de su classicator. Puede ser una clase o podría ser un continuo número de darle la probabilidad de pertenencia a una determinada clase.

4voto

geni Puntos 91

Como dijo Erik, sí, usted puede comprobar esto por la significación estadística. Sin embargo, piense por un momento qué es exactamente lo que desea comprobar. Creo que una pregunta más interesante sería preguntar qué tan probable es que la supuesta "mejora" algoritmo es mejor (o significativamente mejor) que la original, dado que los datos de una observado un 1% de diferencia. Preguntas en términos de "significación estadística" tiende a que el tipo opuesto de la pregunta: Dado que los dos algoritmos son los mismos, hay menos de un 5% de probabilidad de observar una mejora de al menos de esta cantidad?

Para mí, la última pregunta es al revés, pero de alguna manera se ha convertido en el estándar. Usted puede comprobar fuera de Wikipedia sobre la polémica en las pruebas de hipótesis estadísticas. Que posteriormente podría estar interesado en la inferencia Bayesiana. Si usted realmente desea conseguir en Bayesiano de análisis de datos, usted puede comprobar fuera de Gelman et al. "Bayesiano" Análisis de Datos" o echa un vistazo a esta pregunta.

2voto

cbeleites Puntos 12461

La aplicación de Erik respuesta a Miguel:

Usted puede hacer el mismo tipo de pensamiento Erik se refiere a la hora de elegir la medida de rendimiento.

Me parece útil para referirse a las diferentes tales medidas por parte de las preguntas que contestan (aquí en el diagnóstico médico lenguaje el que estoy más familiarizado con - pero tal vez sólo se puede reemplazar paciente por el texto y la enfermedad por el spam ;-) ):

  • Sensibilidad: dado que el paciente realmente tiene la enfermedad, ¿cómo de probable es que el clasificador para darse cuenta de que?

  • Especificidad: dado que el paciente realmente no tiene la enfermedad, ¿cómo de probable es que el clasificador para darse cuenta de que?

  • Valor predictivo positivo: dado el clasificador de reclamaciones, el paciente enfermo, ¿cómo es probable que el paciente tenga la enfermedad?

  • Valor predictivo negativo: dado el clasificador de reclamaciones de la paciente de no estar enfermo, ¿cómo es probable que el paciente no tiene la enfermedad?

Como se puede ver, la predicitive valores son lo que los médicos y los pacientes están realmente interesados en. Sin embargo, casi todo el mundo, caracteriza su clasificador por la sensibilidad y la especificidad. La razón es que los valores predictivos de la necesidad de tomar la prevalencia de la enfermedad en cuenta, y que puede variar enormemente (órdenes de magnitud!) para los diferentes tipos de pacientes.

Más en el tema de tu pregunta:

Apuesto a que tienes razón en preocuparse.

Teniendo ambos Erik escenarios en un ejemplo:

Aquí son independientes de las muestras de la prueba:

> binom.test (x = 810, n = 1000, p = 0.8)

    Exact binomial test

data:  810 and 1000 
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8 
95 percent confidence interval:
 0.7842863 0.8338735 
sample estimates:
probability of success 
                  0.81 

(tenga en cuenta que esta prueba fue de dos caras, suponiendo que los dos clasificadores habría sido publicados, incluso si los resultados habían sido al revés...)

Aquí está la mejor situación posible: paired de la prueba, y el nuevo clasificador es adecuado para todas las muestras el viejo está a la derecha, demasiado, más los 10 más:

> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
          newclassif
oldclassif correct wrong
   correct     800     0
   wrong        10   190
> mcnemar.test (oldclassif, newclassif)

    McNemar's Chi-squared test with continuity correction

data:  oldclassif and newclassif 
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427

(el p-valor se mantiene por debajo de la mágica 0.05 mientras no más de 10 muestras de los 1000 se predijo de forma diferente por los dos clasificadores).

Incluso si los valores de p son la respuesta correcta a la pregunta equivocada, no hay indicación de que es una especie de opresión en el lugar.

Sin embargo, teniendo en cuenta la costumbre de la práctica científica, es decir, un desconocido (inédito) número de nuevas características fue probado, y sólo el que funcionó un poco mejor fue publicado, el lugar se vuelve aún más apretado. Y entonces, el 80 % de clasificador puede ser el sucesor de un 79 % classifer...

Si te gusta leer en alemán, hay algunos buenos libros por Beck-Bornhold y Dubben. Si recuerdo correctamente, el Mit un Wahrscheinlichkeit grenzender Sicherheit tiene una muy buena discusión de estos problemas. (No sé si hay una edición en inglés, una traducción literal del título es "Con una seguridad rayana en la probabilidad")

2voto

dan90266 Puntos 609

Yo muy desalentar el uso de cualquier discontinuo incorrecto regla de puntuación (una precisión de puntuación tales como la sensibilidad, la especificidad, la proporción clasificados correcto que cuando se optimizan los resultados en un falso modelo) y en lugar de usar el cociente de probabilidad de las pruebas o parcial de F pruebas de valor añadido de las nuevas variables.

Una de las varias formas de ver los problemas con la proporción clasificados correctamente es que si la proporción global en una categoría es de 0,9 usted será correcta 0.9 de el tiempo haciendo caso omiso de los datos y la clasificación de cada una de las observaciones como de estar en esa categoría.

0voto

Igor Glinsky Puntos 11

Para cualquier tipo de muestra, y los datos de la geometría, la estadística paradigma que identifica el modelo que explícitamente maximiza la precisión de la clasificación de una aplicación que se llama Óptima (Máxima Precisión) Análisis de los Datos, o la AOD. Toda la AOD de los modelos se desarrollan a través de un exacto no paramétrico de la metodología.

Aquí hay un enlace a la seminal introducción a la Óptima de Análisis de Datos (AOD) paradigma-donde "Óptima" significa "clasificar con la máxima precisión" (ver la reseña del libro, que viene con un software y está disponible en muchas bibliotecas, en esta página): http://www.apa.org/pubs/books/4316000.aspx

Aquí hay un enlace a un artículo que introduce el desarrollo temprano de la AOD paradigma: http://optimalprediction.com/files/pdf/V1A2.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X