69 votos

¿Qué es un ejemplo bueno, convincente, en el que los valores de p son útiles?

Mi pregunta en el título se explica por sí mismo, pero me gustaría darle un poco de contexto.

El ASA emitió un comunicado a principios de esta semana "en la p-valores: contexto, proceso y propósito", describiendo varios de los errores más comunes de la p-valor, y pidiendo cautela en no hacer uso de ella sin contexto y el pensamiento (lo que podría decirse de casi cualquier método estadístico, la verdad).

En respuesta a la ASA, el profesor Matloff escribió un post en el blog titulado: Después de 150 Años, el ASA Dice No a los p-valores. A continuación, el profesor Benjamini (y yo) escribió una respuesta en un post titulado no los p-valores de culpa – reflexiones sobre la reciente ASA declaración. En respuesta a ello el profesor Matloff le preguntó en un seguimiento post:

Lo que me gustaría ver [... es] - un buen ejemplo convincente en el cual los valores de p son útiles. Que realmente tiene que ser la línea de fondo.

Si a citar sus dos principales argumentos en contra de la utilidad de la p-valor:

  1. Con grandes muestras, las pruebas de significación se abalanzan sobre pequeñas, sin importancia desviaciones de la hipótesis nula.
  2. Casi ninguna hipótesis nula se cumplen en el mundo real, por lo que la realización de un significado, prueba de ellos es absurdo y extraño.

Estoy muy interesado en lo que otros crossvalidated los miembros de la comunidad, piensen en esta pregunta y argumentos, y de lo que puede constituir una buena respuesta.

44voto

zowens Puntos 1417
  1. Con grandes muestras, las pruebas de significación se abalanzan sobre pequeñas, sin importancia desviaciones de la hipótesis nula.

    La lógica aquí es que si alguien informes altamente significativos $p=0.0001$, luego de este número solos no podemos decir si el efecto es grande e importante o ya irrelevante pequeñas (como puede suceder con un gran $n$). Este argumento me parece extraño y no puede conectarse a él en todo, porque he nunca visto un estudio que informe a $p$-valor sin informar [algo equivalente a] tamaño del efecto. Los estudios que he leído sería por ejemplo, dicen (y por lo general muestran en la figura) que el grupo a tuvo tal y media, el grupo B, tal y media y que fueron significativamente diferentes con tal y tal $p$-valor. Yo, obviamente, puede juzgar por mí misma si la diferencia entre a y B es grande o pequeño.

    Actualización: @RobinEkman me señaló varias altamente estudios citados por Ziliak & McCloskey (1996, 2004), quienes observaron que la mayoría de la economía de los papeles de la trompeta "significación estadística" de algunos efectos sin tener que pagar mucho la atención el tamaño del efecto y su "significado práctico" (que, Z&MS argumentar, a menudo puede ser minúscula). Esto es claramente una mala práctica. Aún así, como @MatteoS explicó, los tamaños del efecto (regresión estimados) son siempre informado.

  2. Casi ninguna hipótesis nula se cumplen en el mundo real, por lo que la realización de un significado, prueba de ellos es absurdo y extraño.

    Esta preocupación es a menudo expresado, pero aquí de nuevo, yo realmente no puede conectarse a él. El punto es que el real investigadores no aumentar sus $n$ ad infinitum. En el campo de la neurociencia que yo conozco, la gente va a hacer experimentos con $n=20$ o quizás $n=50$, dicen, las ratas. Si no hay ningún efecto para ser visto que la conclusión es que el efecto no es lo suficientemente grande como para ser interesante. Nadie sé que podría ir sobre la crianza, la formación, la grabación y sacrificar $n=5000$ ratas para mostrar que hay algunos estadísticamente significativo pero pequeño efecto. Y mientras que esto podría ser cierto que casi no hay efectos reales son exactamente cero, es cierto que muchos efectos reales son lo suficientemente pequeñas para ser detectadas con razonable de los tamaños de muestra que razonable que los investigadores están usando en realidad, el ejercicio de su buen juicio.

  3. Norma Matloff sugiere el uso de intervalos de confianza en lugar de $p$-valores debido a que muestran el tamaño del efecto. Los intervalos de confianza son buenas, pero aviso de una desventaja de un intervalo de confianza en comparación con el $p$-valor: intervalo de confianza es reportado por un valor de $\alpha$, por ejemplo,$95\%$. Ver a un $95\%$ intervalo de confianza no me diga cómo amplios $99\%$ intervalo de confianza sería. Pero una sola $p$-valor puede ser comparado con cualquier $\alpha$ lectores pueden tener diferentes alfas en mente.

    En otras palabras, creo que para alguien que le gusta el uso de intervalos de confianza, un $p$-valor es útil y significativo adicional de estadística informe.


Me gustaría dar una larga cita acerca de la utilidad práctica de la $p$-valores de mi favorito blogger Scott Alexander; él no es un estadístico (él es un psiquiatra), pero tiene un montón de experiencia con la lectura psicológica/literatura médica y analizando las estadísticas de los mismos. La cita es a partir de su entrada en el blog sobre el falso chocolate estudio , que recomiendo encarecidamente. El énfasis es mío.

[...] Pero supongamos que no está permitido hacer a $p$-valores. Todo lo que hago es decirle "Sí, hubo un estudio con quince personas que se encuentran chocolate ayudó con la resistencia a la insulina" y se ríen en mi cara. El tamaño del efecto se supone para ayudar con eso. Pero, supongamos que yo digo "No fue un estudio con quince personas que se encuentran chocolate ayudó con la resistencia a la insulina. El tamaño del efecto se $0.6$." No tengo la intuición en todo para si o no que es coherente con ruido aleatorio. ¿? Bueno, luego dicen que estamos supuestos a informe de los intervalos de confianza. El tamaño del efecto se $0.6$, $95\%$ intervalo de confianza de $[0.2, 1.0]$. Bien. Por lo que me marque el límite inferior del intervalo de confianza, veo que es diferente de cero. Pero ahora no estoy trascendiendo el $p$-valor. Estoy usando el p-valor, haciendo una especie de desacoplados cálculo de lo mismo – "$95\%$ intervalo de confianza no incluye el cero" es lo mismo que "$p$-valor es menor que $0.05$".

(Imagino que, aunque sé que el $95\%$ intervalo de confianza no incluye el cero, yo comienzo a preguntarme si el $99\%$ intervalo de confianza. Si sólo hubo algunos estadística que me iba a dar esta información!)

Pero no deshacerse de $p$-valores prevenir "$p$-hacking"? Tal vez, pero sólo daría forma a "d-hacking". Usted no cree que usted puede probar veinte diferentes parámetros metabólicos y sólo reportan el uno con el mayor tamaño del efecto? La única diferencia sería que el p-hacking es completamente transparente – si no veinte pruebas y el informe de una $p$$0.05$, sé que eres un idiota – pero d-hacking sería inescrutable. Si no veinte pruebas y el informe de que uno de ellos tiene un $d = 0.6$, es impresionante? [...]

Pero no cambiar de $p$-los valores de los tamaños del efecto impedir a la gente de hacer una gran cosa acerca de pequeños efectos que son, sin embargo, estadísticamente significativa? Sí, pero a veces queremos hacer una gran cosa acerca de pequeños efectos que son, sin embargo, estadísticamente significativo! Supongamos que la Coca-Cola es la prueba de un nuevo producto aditivo, y se encuentra en grandes estudios epidemiológicos que causa una muerte por cada cien mil personas por año. Eso es un efecto de tamaño de aproximadamente cero, pero aun podría ser significativo estadísticamente. Y ya cerca de mil millones de personas en todo el mundo beber Coca-cola cada año, que diez mil muertes. Si Coque dijo "No, el tamaño del efecto demasiado pequeño, no vale la pena pensar", iban a matar a casi dos mili-Hitler valor de la gente.

30voto

Cliff AB Puntos 3213

Me tomo un gran ofensa a los siguientes dos ideas:

  1. Con grandes muestras, las pruebas de significación se abalanzan sobre pequeñas, sin importancia desviaciones de la hipótesis nula.

  2. Casi ninguna hipótesis nula se cumplen en el mundo real, por lo que la realización de un significado, prueba de ellos es absurdo y extraño.

Es un strawman argumento acerca de p-valores. El muy problema de base que motivó el desarrollo de la estadística viene de ver a una tendencia y el deseo de saber si lo que vemos es por casualidad, o representante de una sistemática tendencia.

Con eso en mente, es cierto que nosotros, como los estadísticos, no suelen creer que un contraste de hipótesis es verdadera (es decir, $H_o: \mu_d = 0$ donde $\mu_d$ es la diferencia de medias en alguna medida entre los dos grupos). Sin embargo, con dos caras pruebas, no sabemos en qué hipótesis alternativa es verdadera! En un dos caras de la prueba, podemos estar dispuestos a decir que estamos 100% seguros de que $\mu_d \neq 0$ antes de ver los datos. Pero no sabemos si $\mu_d > 0$ o $\mu_d < 0$. Así que si tenemos que ejecutar nuestro experimento y a la conclusión de que $\mu_d > 0$, hemos rechazado $\mu_d = 0$ (como Matloff podría decir; inútil conclusión) pero lo que es más importante, también hemos rechazado $\mu_d < 0$ (digo; útil conclusión). Como @ameba se ha señalado, esto también se aplica a uno de los lados de la prueba que tienen el potencial de ser dos caras, como la comprobación de si un medicamento tiene un efecto positivo.

Es cierto que esto no digo que la magnitud del efecto. Pero sí indica que la dirección del efecto. Así que vamos a no poner el carro delante del caballo; antes de empezar a sacar conclusiones sobre la magnitud del efecto, quiero estar seguro de que tienes la dirección del efecto correcto!

Del mismo modo, el argumento de que "los valores de p se abalanzan sobre pequeñas, sin importancia de los efectos" parece bastante imperfecto a mí. Si usted piensa en un p-valor como una medida de la cantidad de los datos que apoya la dirección de su conclusión, entonces, por supuesto, usted quiere recoger los pequeños efectos cuando el tamaño de la muestra es lo suficientemente grande. Decir esto significa que no son útiles, es muy extraño para mí: son estos campos de investigación que han sufrido los p-valores de los mismos que tienen tantos datos que no tienen ninguna necesidad de evaluar la fiabilidad de las estimaciones? Del mismo modo, si tu problemas es realmente que los valores de p "abalanzarse sobre pequeños tamaños del efecto", entonces usted puede simplemente probar la hipótesis de $H_{1}:\mu_d > 1$ $H_{2}: \mu_d < -1$ (suponiendo que usted cree que 1 es el mínimo de importante tamaño del efecto). Esto se hace a menudo en los ensayos clínicos.

Para ilustrar esto, supongamos que ya hemos visto en los intervalos de confianza y desechados p-valores. ¿Cuál es la primera cosa que usted compruebe en el intervalo de confianza? Si el efecto era estrictamente positivo (o negativo) antes de tomar los resultados demasiado en serio. Como tal, incluso sin que los valores de p, se haría de manera informal a hacer la prueba de hipótesis.

Por último, en lo que respecta a la OP/Matloff de la solicitud, "Dar un argumento convincente de p-valores significativamente mejor", creo que es una pregunta un poco torpe. Digo esto porque según su punto de vista, que responde automáticamente a sí mismo ("dame un ejemplo concreto donde poner a prueba una hipótesis es mejor que no, prueba de ellos"). Sin embargo, un caso especial que creo que es casi innegable es que de RNAseq de datos. En este caso, estamos normalmente buscando en el nivel de expresión de ARN en dos grupos diferentes (es decir, enfermos, de los controles) y tratando de encontrar los genes que se expresan diferencialmente en los dos grupos. En este caso, el tamaño del efecto en si mismo no es realmente significativa. Esto es debido a que los niveles de expresión de diferentes genes que varían tan violentamente que para algunos genes, teniendo 2x mayor expresión no significa nada, mientras que en otros estrechamente regulada de los genes, 1.2 x mayor expresión es fatal. Así que la real magnitud del tamaño del efecto es realmente algo interesante cuando primero la comparación de los grupos. Pero realmente, realmente quiero saber si la expresión de los genes de los cambios entre los grupos y la dirección del cambio! Además, es mucho más difícil de abordar las cuestiones de comparaciones múltiples (por el cual usted puede estar haciendo 20.000 de ellos en una sola carrera) con intervalos de confianza que es con p-valores.

2voto

Matt Puntos 1371

Las otras explicaciones están todos muy bien, yo sólo quería probar y dar una breve y directa respuesta a la pregunta que me vino a la cabeza.

Comprobación de la Covariable Desequilibrio en Experimentos Aleatorios

Su segunda afirmación (sobre irreal de la hipótesis nula) no es verdad que cuando estamos revisando covariable equilibrio en experimentos aleatorios donde sabemos que la aleatorización se realiza correctamente. En este caso, sabemos que la hipótesis nula es verdadera. Si queremos obtener una diferencia significativa entre el tratamiento y grupo de control en algunos covariable - después de controlar para comparaciones múltiples, por supuesto, eso nos dice que tenemos una "mala dibujar" en la aleatorización y quizás nosotros no debemos de confiar en la causal estimar como mucho. Esto es debido a que se podría pensar que nuestro tratamiento estimaciones del efecto de esta particular "mala dibujar" la aleatorización se encuentran muy lejos de los verdaderos efectos del tratamiento de las estimaciones obtenidas a partir de un "buen sorteo."

Creo que este es un perfecto uso de p-valores. Se utiliza la definición de valor-p: la probabilidad de obtener un valor tan o más extrema dada la hipótesis nula. Si el resultado es altamente improbable, entonces de hecho conseguimos una "mala dibujar."

Balance de tablas estadísticas también son comunes cuando el uso de datos de observación para intentar y hacer inferencias causales (por ejemplo, la correspondencia, los experimentos naturales). Aunque en estos casos el balance de las tablas están lejos de ser suficientes para justificar una "causal" de la etiqueta para las estimaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X