La aplicación de Erik respuesta a Miguel:
Usted puede hacer el mismo tipo de pensamiento Erik se refiere a la hora de elegir la medida de rendimiento.
Me parece útil para referirse a las diferentes tales medidas por parte de las preguntas que contestan (aquí en el diagnóstico médico lenguaje el que estoy más familiarizado con - pero tal vez sólo se puede reemplazar paciente por el texto y la enfermedad por el spam ;-) ):
Sensibilidad: dado que el paciente realmente tiene la enfermedad, ¿cómo de probable es que el clasificador para darse cuenta de que?
Especificidad: dado que el paciente realmente no tiene la enfermedad, ¿cómo de probable es que el clasificador para darse cuenta de que?
Valor predictivo positivo: dado el clasificador de reclamaciones, el paciente enfermo, ¿cómo es probable que el paciente tenga la enfermedad?
Valor predictivo negativo: dado el clasificador de reclamaciones de la paciente de no estar enfermo, ¿cómo es probable que el paciente no tiene la enfermedad?
Como se puede ver, la predicitive valores son lo que los médicos y los pacientes están realmente interesados en. Sin embargo, casi todo el mundo, caracteriza su clasificador por la sensibilidad y la especificidad. La razón es que los valores predictivos de la necesidad de tomar la prevalencia de la enfermedad en cuenta, y que puede variar enormemente (órdenes de magnitud!) para los diferentes tipos de pacientes.
Más en el tema de tu pregunta:
Apuesto a que tienes razón en preocuparse.
Teniendo ambos Erik escenarios en un ejemplo:
Aquí son independientes de las muestras de la prueba:
> binom.test (x = 810, n = 1000, p = 0.8)
Exact binomial test
data: 810 and 1000
number of successes = 810, number of trials = 1000, p-value = 0.4526
alternative hypothesis: true probability of success is not equal to 0.8
95 percent confidence interval:
0.7842863 0.8338735
sample estimates:
probability of success
0.81
(tenga en cuenta que esta prueba fue de dos caras, suponiendo que los dos clasificadores habría sido publicados, incluso si los resultados habían sido al revés...)
Aquí está la mejor situación posible: paired de la prueba, y el nuevo clasificador es adecuado para todas las muestras el viejo está a la derecha, demasiado, más los 10 más:
> ## mc.nemar: best possible case
> oldclassif <- c (rep ("correct", 800), rep ("wrong", 200))
> newclassif <- c (rep ("correct", 810), rep ("wrong", 190))
> table (oldclassif, newclassif)
newclassif
oldclassif correct wrong
correct 800 0
wrong 10 190
> mcnemar.test (oldclassif, newclassif)
McNemar's Chi-squared test with continuity correction
data: oldclassif and newclassif
McNemar's chi-squared = 8.1, df = 1, p-value = 0.004427
(el p-valor se mantiene por debajo de la mágica 0.05 mientras no más de 10 muestras de los 1000 se predijo de forma diferente por los dos clasificadores).
Incluso si los valores de p son la respuesta correcta a la pregunta equivocada, no hay indicación de que es una especie de opresión en el lugar.
Sin embargo, teniendo en cuenta la costumbre de la práctica científica, es decir, un desconocido (inédito) número de nuevas características fue probado, y sólo el que funcionó un poco mejor fue publicado, el lugar se vuelve aún más apretado. Y entonces, el 80 % de clasificador puede ser el sucesor de un 79 % classifer...
Si te gusta leer en alemán, hay algunos buenos libros por Beck-Bornhold y Dubben. Si recuerdo correctamente, el Mit un Wahrscheinlichkeit grenzender Sicherheit tiene una muy buena discusión de estos problemas. (No sé si hay una edición en inglés, una traducción literal del título es "Con una seguridad rayana en la probabilidad")