32 votos

¿Por qué son inferiores a los valores de p no más evidencia en contra de la nula? Los argumentos de Johansson 2011

Johansson (2011) en "el Granizo lo imposible: los valores de p, la evidencia, y la probabilidad" (aquí también el enlace a la revista) los estados que menor $p$-valores son a menudo considerados como la evidencia más fuerte en contra de la anulación. Johansson implica que la gente podría considerar la evidencia en contra de la nula para ser más fuerte si su prueba estadística emite un $p$-valor de $0.01$, que si su prueba estadística emite un $p$-valor de $0.45$. Johansson enumera cuatro razones por las que el $p$-valor no puede ser utilizado como evidencia en contra de la nula:

  1. $p$ es uniformemente distribuido bajo la hipótesis nula y, por tanto, nunca indican evidencia de la nulos.
  2. $p$ es condicionado únicamente en la hipótesis nula y por lo tanto inadecuado para cuantificar la evidencia, porque la evidencia es siempre relativa en el sentido de que se evidencia en favor o en contra de una hipótesis en relación a otra hipótesis.
  3. $p$ designa la probabilidad de obtención de pruebas (dada la nula), en lugar de la fuerza de la evidencia.
  4. $p$ depende de datos observados y las intenciones subjetivas y, por tanto, implica, dada la prueba de interpretación, que la prueba la fuerza de los datos observados depende de las cosas que no suceder y las intenciones subjetivas.

Por desgracia no puedo obtener una comprensión intuitiva de Johansson artículo. Para mí, un $p$-valor de $0.01$ indica que hay menos posibilidades de nula es verdadera, de un $p$-valor de $0.45$. ¿Por qué son menores de $p$-valores no más fuerte evidencia en contra de null?

21voto

Momo Puntos 5125

Mi valoración personal de sus argumentos:

  1. Aquí se habla sobre el uso de $p$ como evidencia el Nulo, mientras que su tesis es que $p$ no puede ser utilizado como evidencia en contra de la anulación. Entonces, yo creo que este argumento es en gran medida irrelevante.
  2. Creo que esto es un malentendido. Fisherian $p$ de prueba de la siguiente manera fuertemente en la idea de Popper del Racionalismo Crítico que los estados no puede apoyar una teoría, sino sólo critican. Así que en ese sentido no sólo es una sola hipótesis (Nula) y simplemente comprobar si sus datos están de acuerdo con ella.
  3. No estoy de acuerdo aquí. Depende de la estadística de prueba pero $p$ es generalmente una transformación de un tamaño del efecto que habla en contra de la anulación. De modo que el mayor es el efecto, menor es el valor de p---todas las otras cosas iguales. Por supuesto, para los diferentes conjuntos de datos o hipótesis ya no es válida.
  4. Yo no estoy seguro de entender completamente esta afirmación, pero de lo que he entendido, esto es menos un problema de $p$ como de personas que utilizan de manera equivocada. $p$ fue la intención de tener el tiempo-frecuencia de ejecución de interpretación y que es una característica que no es un error. Pero no se puede culpar a $p$ para las personas que toman una sola de $p$ valor como prueba de sus hipótesis o la gente de publicación de sólo $p<.05$.

Su sugerencia de utilizar el cociente de probabilidad como una medida de prueba es en mi opinión una buena (pero aquí la idea de un factor de Bayes es más general), pero en el contexto en el que él trae es un poco peculiar: en Primer lugar, las hojas de los motivos de Fisherian pruebas donde no hay una hipótesis alternativa para calcular el cociente de probabilidad. Pero p $$ como evidencia contra el Null es Fisherian. Por lo tanto, él confunde Fisher y Neyman-Pearson. Segundo, la mayoría de la estadística de prueba que utilizamos son (funciones) de la razón de verosimilitud y en ese caso $p$ es una transformación de la razón de verosimilitud. Como Cosma Shalizi pone:

entre todas las pruebas de un tamaño dado $s$ , el uno con la más pequeña miss de probabilidad, o de mayor potencia, que tiene la forma de "decir " señal", si $p(x)/p(x) > t(s)$, de lo contrario, decir "ruido"," y que el umbral de $t$ varía inversamente con el $s$. La cantidad de $p(x)/p(x)$ es la probabilidad de relación; el lema de Neyman-Pearson dice que para maximizar la potencia, se debe decir "señal" si es bastante más probable que el ruido.

Aquí $q(x)$ es la densidad en estado "señal" y $p(x)$ la densidad en estado de "ruido". La medida para "suficientemente probable" sería aquí será de $P(q(X)/p(x) > t_{obs} \mediados de H_0)$ que $p$. Tenga en cuenta que en la correcta Neyman-Pearson, prueba de $t_{obs}$ es sustituido por un fijo de $t(s)$ tal que $P(q(X)/p(x) > t(s) \mediados de H_0)=\alpha$.

10voto

Auron Puntos 2123

La razón por la que argumentos como el de Johansson son reciclados tan a menudo parecen estar relacionados con el hecho de que los valores de P son los índices de la evidencia en contra de la null, pero no son medidas de la evidencia. La evidencia tiene más dimensiones que cualquier número se puede medir, y por lo que siempre hay aspectos de la relación entre los valores de P y la evidencia de que las personas pueden encontrar difícil.

He revisado muchos de los argumentos utilizados por Johansson en un documento que muestra la relación entre los valores de P y la probabilidad de funciones, y por lo tanto la evidencia: http://arxiv.org/abs/1311.0081 Por desgracia, ese papel ha sido tres veces rechazado, a pesar de sus argumentos y la evidencia de que ellos no han sido desvirtuados. (Parece que es de mal gusto a los árbitros que tienen opiniones, como de Johansson en lugar de lo malo.)

4voto

JohnRos Puntos 3211

Agregar a @Momo bonita respuesta:

No te olvides de la multiplicidad. Dado que muchos independiente de los valores de p, y la escasa no trivial efecto de los tamaños, el más pequeño de los valores de p son de la nulos, con la probabilidad tiende a $1$ como el número de hipótesis aumenta. Así que si me dices que tiene un pequeño valor de p, la primera cosa que quiero saber es cómo muchas hipótesis se han puesto a prueba.

1voto

Andrew Puntos 629

Es Johansson habla sobre los valores de p a partir de dos experimentos diferentes? Si es así, la comparación de los valores de p puede ser como comparar manzanas con chuletas de cordero. Si el experimento "A" implica a un gran número de muestras, incluso un pequeño insignificante diferencia puede ser significativo estadísticamente. Si el experimento "B" implica sólo un par de muestras, una importante diferencia puede no ser estadísticamente significativa. Incluso peor (por eso dije chuletas de cordero y no de naranjas), las escamas pueden ser totalmente incomparable (psi en uno y kwh en el otro).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X