116 votos

ASA habla sobre limitaciones de $p$-valores - ¿Cuáles son las alternativas?

Ya tenemos varios hilos marcados como que revelan un montón de malentendidos acerca de ellos. Hace diez meses tuvimos un hilo sobre psicológica diario que "prohibidos" $p$-valores, ahora Asociación Americana de Estadística (2016) dice que con nuestro análisis hemos "no debe terminar con el cálculo de una $p$-valor".

Asociación americana de Estadística (ASA) cree que el científico la comunidad podría beneficiarse de una declaración formal aclarar varios amplio acuerdo sobre los principios que subyacen a la utilización adecuada y la interpretación de la $p$-valor.

El comité de listas de otros enfoques como posibles alternativas o complementos a $p$-valores:

En vista de los frecuentes abusos de y conceptos erróneos sobre $p$-valores, algunos estadísticos prefieren complementar o incluso reemplazar $p$-valores con otros enfoques. Estos incluyen métodos que enfatizan la estimación más pruebas, tales como: la confianza, la credibilidad, o intervalos de predicción; Bayesiano métodos; las medidas alternativas de la evidencia, tales como cocientes de probabilidad o Factores de Bayes; y otros enfoques, tales como la decisión de la teoría de la modelización y de falso descubrimiento las tasas. Todas estas medidas y enfoques se basan en más supuestos, pero se puede abordar de manera más directa el tamaño de un efecto (y su asociada a la incertidumbre), o si la hipótesis es correcta.

Así que vamos a imaginar post-$p$-valores de la realidad. ASA se enumeran algunos de los métodos que se pueden utilizar en lugar de $p$-valores, pero ¿por qué son mejores? Cual de ellos puede ser la vida real de reemplazo para un investigador que utiliza $p$-valores para toda su vida? Me imagino que este tipo de preguntas va a aparecer en la post-$p$-valores de la realidad, así que tal vez vamos a tratar de estar un paso por delante de ellos. ¿Cuál es la alternativa razonable que se puede aplicar fuera de la caja? Por qué este enfoque debe convencer a su investigador principal, el editor, o los lectores?

Como este seguimiento de la entrada del blog indica, $p$-valores son imbatibles en su sencillez:

El p-valor sólo requiere de un modelo estadístico para el comportamiento de un estadístico bajo la hipótesis nula de mantener. Incluso si un modelo de un hipótesis alternativa se utiliza para la elección de una "buena" de la estadística (que sería utilizado para la construcción de la p-valor), este modelo alternativo no tiene que ser correcta para que el p-valor para ser válida y útil (es decir: control de error de tipo I en el nivel deseado, mientras que ofrece algunos de potencia para detectar un efecto real). En contraste, otros (maravilloso y útil) métodos estadísticos tales como cocientes de Probabilidad, el tamaño del efecto estimación, intervalos de confianza, o Bayesiano métodos necesitan modelos asumidos para mantener más de un rango más amplio de situaciones, no sólo en virtud de la prueba nula.

Son ellos, o tal vez no es cierto y que fácilmente se puede sustituir?

Yo sé que esto es muy amplia, pero la principal pregunta es simple: ¿cuál es la mejor (y por qué), de la vida real alternativa a $p$-de valores que puede ser utilizado como un reemplazo?


ASA (2016). ASA Declaración sobre la Significación Estadística y $P$-valores. El Estadístico Americano. (en prensa)

29voto

peuhp Puntos 788

Aquí está mi granito de arena.

Creo que en algún momento, muchos científicos se expresa de la siguiente "teorema":

Teorema 1: $p\text{-value}<0.05\Leftrightarrow \text{my hypothesis is true}.$

y la mayoría de las malas prácticas provienen de aquí.

El $p$-valor y la inducción científica

Yo solía trabajar con la gente, el uso de las estadísticas sin realmente entender y aquí es algunas de las cosas que veo:

  1. la ejecución de muchos posibles pruebas/reparametrisations (sin mirar una vez a la distribución de los datos), hasta encontrar la "buena": el que da las $p<0.05$;

  2. tratando diferentes preprocesamiento (por ejemplo, en imágenes médicas) para obtener los datos para analizar hasta llegar el da $p<0.05$;

  3. llegar a $0.05$ mediante la aplicación de una cola de la prueba t en la dirección positiva de los datos con efecto positivo y en la dirección negativa de los datos con efecto negativo (!!).

Todo lo que se hace por el bien versados, científicos honestos que de no tener una fuerte sensación de engaño. Por qué ? En mi humilde opinión, porque del Teorema 1.

En un momento dado, aplica científico puede creer firmemente en sus hipótesis. Yo incluso la sospecha de que creen que se sabe que son verdaderas y la realidad es que en muchas situaciones se han visto los datos de años, que ha pensado en ellos, mientras que trabajar, caminar, dormir... y son la mejor manera de decir algo acerca de la respuesta a esta pregunta. El hecho es que, en su mente (lo siento, creo que me veo un poco arrogante aquí), por el Teorema 1 si la hipótesis es verdadera, el $p$-valor debe ser inferior a $0.05$ ; no importa lo que la cantidad de datos es, cómo se distribuyen, la hipótesis alternativa, el efecto del tamaño, la calidad de la adquisición de datos. Si el $p$-valor no es $>0.05$ y la hipótesis es verdadera, entonces algo no está correcto: el preprocesamiento, la elección de la prueba, la distribución, la adquisición de protocolo... así que cambiarlos... $p$valor $<0.05$ es sólo la última clave de la inducción científica.

A este punto, estoy de acuerdo con los dos anteriores respuestas que los intervalos de confianza o intervalos de credibilidad de hacer la estadística de la respuesta más adecuada a la discusión y a la interpretación. Mientras que $p$-valor es difícil de interpretar (en mi humilde opinión) y termina la discusión, el intervalo de estimaciones puede servir para la inducción científica ilustrada por el objetivo de estadísticas, pero conducir por expertos argumentos.

El $p$-valor y la hipótesis alternativa

Otra consecuencia de Th.1 es que si $p$valor$>0.05$, entonces la hipótesis alternativa es falsa. De nuevo esto es algo que yo encuentro muchas veces :

  1. trate de comparar (sólo porque tenemos los datos) una hipótesis sobre el tipo de $H_0: \mu_1 \ne \mu_2$: tomar al azar a 10 puntos para cada uno de los dos grupos, calcular el $p$-valor de $H_0$. Encontrar $p=0.2$, aviso en alguna parte de el cerebro que no hay ninguna diferencia entre los dos grupos.

Un problema principal con el $p$-valor es que la alternativa es que nunca se menciona, mientras que creo que en muchos casos esto podría ayudar mucho. Un ejemplo típico es el punto 4., donde he propuesto a mi colega para calcular la posterior relación de $p(\mu_1>\mu_2|x)$ vs $p(\mu_1<\mu_2|x)$ y obtener algo así como 3 (sé que esta figura es ridículamente bajos). El investigador me pregunta si eso significa que la probabilidad de que $\mu_1>\mu_2$ es 3 veces más fuerte que los $\mu_2>\mu_1$. Me contestó que esta es una manera de interpretar y se encuentra con esta increíble y que ella debe mirar más datos y escribir en un papel... que Mi punto no es que este "3" ayuda a entender que hay algo en los datos (de nuevo 3 es claramente anedoctic), pero subraya que ella malinterpreta el p-valor p-valor>0,05 significa nada interesante/equivalente grupos". Así que, en mi opinión, siempre, al menos, a discutir la hipótesis alternativa (es!) es obligatorio, permite evitar la simplificación, da elemento de debate.

Otro caso es cuando los expertos quieren :

  1. prueba de $\mu_1>\mu_2>\mu_3$. Para que ponen a prueba y rechazar $\mu_1=\mu_2=\mu_3$ entonces a la conclusión de $\mu_1>\mu_2>\mu_3$ usando el hecho de que el ML estimaciones están ordenados.

Mencionar la hipótesis alternativa es la única solución para resolver este caso.

Para el uso posterior de las probabilidades, factor de Bayes o cociente de probabilidad conjuntamente con la confianza de los/intervalos de credibilidad parece reducir las principales cuestiones implicadas.

La común interpretación de $p$-valor / intervalos de confianza es relativamente un defecto menor (en la práctica)

Aunque soy un Bayesiano entusiasta, realmente creo que el común de la mala interpretación de la $p$-valor y CI (es decir, el $p$-el valor no es la probabilidad de que la hipótesis nula es falsa y que el CI no es el intervalo que contiene el valor del parámetro con un 95% de probabilidad) no es la principal preocupación para esta pregunta (aunque estoy seguro de que este es un punto importante desde un punto de vista filosófico). El Bayesiano/vista Frecuentista tienen tanto pertinente respuestas a ayuda profesional en esta "crisis".

Mis dos centavos conclusión

Utilizando creíble intervalo y el factor de Bayes o de la probabilidad final es lo que trato de hacer en mi práctica con expertos (pero también soy aficionado a las CI+cociente de probabilidad). Llegué a las estadísticas de hace un par de años, principalmente por el auto-estudio desde la web (así que muchas gracias a Cruz Validado !) y así creció con las numerosas revueltas en torno a $p$-valores. No sé si mi práctica es buena, pero es lo que pragmáticamente como encontrar un buen compromiso entre ser eficiente y hacer mi trabajo correctamente.

26voto

dan90266 Puntos 609

Las únicas razones por las que me siguen uso $P$-valores son

  1. Más software está disponible para frecuentista métodos de métodos Bayesianos.
  2. En la actualidad, algunos análisis Bayesiano tomar un largo tiempo para ejecutar.
  3. Bayesiano métodos requieren más análisis y más inversión de tiempo. No me importa el pensamiento, pero a menudo el tiempo es corto, así que podemos tomar atajos.
  4. El bootstrap es un sistema altamente flexible y útil cotidiana técnica que está más conectado a la frecuentista mundo que a la Bayesiana.

$P$-valores, de forma análoga a muy problemático sensibilidad y especificidad de las medidas de precisión, son muy deficientes en mi humilde opinión. El problema con estas tres medidas es que se invierta el flujo del tiempo y de la información. Cuando usted da vuelta a una pregunta de "¿cuál es la probabilidad de obtener evidencia como este si el acusado es inocente" a "¿cuál es la probabilidad de culpabilidad de la persona basada en la evidencia", las cosas se vuelven más coherente y menos arbitrario. El razonamiento inverso en el tiempo hace que usted tiene que considerar "¿cómo llegamos aquí?" como opuesto a "¿cuál es la evidencia ahora?". $P$-valores que requiere la consideración de lo que podría haber sucedido en lugar de lo que sucedió. Lo que podría haber pasado hace que uno tiene que hacer arbitraria de la multiplicidad de los ajustes, incluso el ajuste de los datos se ve que podría haber tenido un impacto, pero en realidad no.

Al $P$-valores son, junto con la alta decisión arbitraria de los umbrales, las cosas empeoran. Los umbrales casi siempre invitar a los juegos de azar.

Excepto para Gaussiano modelos lineales y la distribución exponencial, casi todo lo que hacemos con frecuentista de inferencia es aproximada (un buen ejemplo es la logística binaria modelo que causa problemas debido a su registro de probabilidad función es muy no-cuadrática). Con la inferencia Bayesiana, todo es exacto dentro de la simulación de error (y siempre se puede hacer más de simulaciones para obtener probabilidades posteriores/intervalos de credibilidad).

6voto

mdewey Puntos 579

Lo que se prefiere y por qué debe depender del campo de estudio. Hace unos 30 años los artículos comenzaron a aparecer en las revistas médicas, lo que sugiere que la $p$-los valores deben ser reemplazadas por las estimaciones de intervalos de confianza. El razonamiento básico era que $p$-valores simplemente decirles que el efecto fue allí, mientras que la estimación con su intervalo de confianza indica lo grande que era y de cómo, precisamente, se ha estimado. El intervalo de confianza es particularmente importante cuando el $p$-valor no llega al nivel convencional de importancia, ya que permite al lector saber si esto es probable debido a que no hay realmente ninguna diferencia o el estudio de ser inadecuada para encontrar una que sea clínicamente significativa diferencia.

Dos referencias son:

@article{langman86,
 author = {Langman, M J S},
 title = {Hacia la estimación e intervalos de confianza},
 journal = {Revista Británica de medicina},
 año = {1986},
 volumen = {292},
 páginas = {716},
 palabras clave = {intervalos de confianza}
}
@article{gardner86b,
 author = {Gardner, M, J y Altman, D, G},
 title = {los intervalos de Confianza en lugar de {P} valores: estimación
 en lugar de la prueba de hipótesis},
 journal = {Revista Británica de medicina},
 año = {1986},
 volumen = {292},
 páginas = {746--750},
 palabras clave = {intervalos de confianza}
}

2voto

Mi opción sería seguir utilizando valores de p, pero simplemente añadiendo intervalos de confianza/credibilidad y posiblemente para los intervalos de predicción de los resultados primarios. Hay un libro muy bonito por Douglas Altman (estadística con confianza, Wiley), y gracias a boostrap y appraoches MCMC, siempre es posible construir intervalos razonablemente robustos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X