45 votos

Interpretación del valor p en las pruebas de hipótesis

Hace poco me encontré con el documento "La insignificancia de las pruebas de significación de hipótesis nulas", Jeff Gill (1999) . El autor ha planteado algunos conceptos erróneos comunes en relación con las pruebas de hipótesis y los valores p, sobre los que tengo dos preguntas concretas:

  1. El valor p es técnicamente $P({\rm observation}|H_{0})$ que, como se señala en el documento, en general no nos dice nada sobre $P(H_{0}|{\rm observation})$ a menos que conozcamos las distribuciones marginales, lo que rara vez ocurre en las pruebas de hipótesis "cotidianas". Cuando obtenemos un valor p pequeño y "rechazamos la hipótesis nula", ¿cuál es exactamente la afirmación probabilística que estamos haciendo, ya que no podemos decir nada sobre $P(H_{0}|{\rm observation})$ ?
  2. La segunda pregunta se refiere a una afirmación concreta de la página 6(652) del documento:

Dado que el valor p, o el intervalo de valores p indicado por las estrellas, no se establece a priori, no es la probabilidad a largo plazo de cometer un error de tipo I, pero suele tratarse como tal.

¿Alguien puede explicar qué significa esta afirmación?

1 votos

Gracias por la referencia al documento

0 votos

@ezbentley: tal vez sea interesante echar un vistazo a mi respuesta: stats.stackexchange.com/questions/166323/

41voto

Auron Puntos 2123

(Técnicamente, el valor P es la probabilidad de observar datos al menos tan extrema como la realmente observada, dada la hipótesis nula).

Q1. La decisión de rechazar la hipótesis nula sobre la base de un valor P pequeño suele depender de la "disyunción de Fisher": O se ha producido un suceso raro o la hipótesis nula es falsa. En efecto, lo que indica el valor P es la rareza del suceso y no la probabilidad de que la hipótesis nula sea falsa.

La probabilidad de que la nula sea falsa sólo puede obtenerse a partir de los datos experimentales mediante el teorema de Bayes, que requiere la especificación de la probabilidad "a priori" de la hipótesis nula (presumiblemente lo que Gill denomina "distribuciones marginales").

Q2. Esta parte de la pregunta es mucho más difícil de lo que parece. Existe una gran confusión con respecto a los valores P y las tasas de error, que es, presumiblemente, a lo que se refiere Gill con "pero normalmente se trata como tal". La combinación de los valores P de Fisher con las tasas de error de Neyman-Pearson se ha calificado de batiburrillo incoherente, y desgraciadamente está muy extendida. Ninguna respuesta breve va a ser completamente adecuada aquí, pero puedo indicarle un par de buenos artículos (sí, uno es mío). Ambos le ayudarán a entender el artículo de Gill.

Hurlbert, S., & Lombardi, C. (2009). Final collapse of the Neyman-Pearson decision theoretic framework and rise of the neoFisherian. Annales Zoologici Fennici, 46(5), 311-349. (Enlace al documento)

Lew, M. J. (2012). Bad statistical practice in pharmacology (and other basic biomedical disciplines): you probably don't know P. British Journal of Pharmacology, 166(5), 1559-1567. doi:10.1111/j.1476-5381.2012.01931.x (Enlace al documento)

0 votos

Gracias por la aclaración. ¿Es técnicamente incorrecto hacer afirmaciones como "the small p-value indicates that the sample mean(or regression coefficient, etc) is significantly different from zero" ? La fuente de confusión parece ser que no se está haciendo ninguna afirmación probabilística real sobre la hipótesis nula cuando decimos que la nula es "rechazada".

2 votos

@ezbentley, eso depende realmente de lo que entiendas por significativo. Esa palabra no tiene mucho sentido en la mayoría de los contextos porque ha sido contaminada por el híbrido Fisher-Neyman-Pearson. Si obtienes un valor P muy pequeño, entonces es justo decir que la verdadera media probablemente no sea cero, pero es importante decir cuál era la media observada e indicar su variabilidad (SEM o intervalo de confianza), y no olvides decir cuál era el tamaño de la muestra. Un valor P no sustituye a la especificación del tamaño del efecto observado.

0 votos

Gracias por la explicación. Tengo que profundizar en el paradigma de Fisher y Neyman-Pearson.

25voto

Sean Hanley Puntos 2428

+1 a @MichaelLew, que te ha dado una buena respuesta. Quizás aún pueda contribuir aportando una forma de pensar sobre la Q2. Consideremos la siguiente situación:

  • La hipótesis nula es verdadera. (Obsérvese que si la hipótesis nula es no verdadero, no es posible ningún error de tipo I, y no está claro qué significado tiene el $p$ -valor tiene).
  • $\alpha$ se ha fijado convencionalmente en $0.05$ .
  • El cálculo $p$ -valor es $0.01$ .

Ahora, la probabilidad de obtener datos como extremo o más extremo que sus datos es del 1% (eso es lo que el $p$ -valor significa). Ha rechazado la hipótesis nula, haciendo una error de tipo I . ¿Es cierto que la tasa de error de tipo I a largo plazo en esta situación es también del 1%, lo que mucha gente podría concluir intuitivamente? La respuesta es no . La razón es que si hubieras conseguido un $p$ -valor de $0.02$ aún habría rechazado la nula. De hecho, habría rechazado la nulidad incluso si $p$ había sido $0.04\bar{9}$ y a largo plazo, $p$ 's hasta este grande se producirá $\approx$ 5% de las veces y todos esos rechazos serán errores de tipo I. Por lo tanto, la tasa de error de tipo I a largo plazo es del 5% (donde había establecido $\alpha$ ).

(Aclaración: no he leído el artículo de Gill, por lo que no puedo garantizar que esto sea lo que quería decir, pero da sentido a la afirmación de que la $p$ -no es [necesariamente] lo mismo que la tasa de error de tipo I a largo plazo).

0 votos

+1, especialmente para "Tenga en cuenta que si la hipótesis nula no es cierta, no hay errores de tipo I posibles, y no está claro qué significado tiene el valor p".

1 votos

Trabajando en un campo (epi) donde a menudo es extremadamente difícil creer que la hipótesis H_0=0 es realmente cierta, creo que este punto se pasa por alto y merece mucha más atención.

1 votos

Sólo para asegurarme de que lo que he entendido es correcto. El propio valor P es una variable aleatoria, y el error de tipo I es la probabilidad de que esta variable aleatoria sea menor que $\alpha$ . ¿Es correcto?

9voto

Ηλίας Puntos 109

Me gustaría hacer un comentario relacionado con "la insignificancia de las pruebas de significación de hipótesis nulas" pero que no responde a la pregunta del OP.

En mi opinión, el principal problema no es la mala interpretación de la $p$ -valor. Por ejemplo, muchos profesionales suelen buscar una "diferencia significativa" y creen erróneamente que una diferencia significativa significa que hay una "gran" diferencia. Más concretamente, se encuentran en el contexto de una hipótesis nula "precisa $H_0$ tener forma $H_0\colon\{\theta=0\}$ . Esta hipótesis se rechazará cuando $\theta=\epsilon$ incluso para una $\epsilon$ cuando aumenta el tamaño de la muestra. Pero en el mundo real, no hay diferencia entre una pequeña $\epsilon$ et $0$ (decimos que hay equivalencia entre un pequeño $\epsilon$ et $0$ et pruebas de equivalencia es el camino a seguir en una situación así).

4 votos

+1 Sí, el verdadero problema de las pruebas de hipótesis convencionales es que responden a una pregunta que en realidad no interesa que se responda, es decir, "¿hay pruebas significativas de una diferencia?", en lugar de "¿hay pruebas de una diferencia significativa?". Por supuesto, lo que realmente se desea es, en general, "¿cuál es la probabilidad de que mi hipótesis de investigación sea cierta?", pero esto no puede responderse dentro de un marco frecuentista. La interpretación errónea suele surgir de los intentos de tratar la prueba frecuentista en términos bayesianos.

1 votos

No es buena idea separar el significado de los valores P y el tamaño de la muestra. Un valor P más pequeño indica un mayor tamaño del efecto en cualquier tamaño de muestra concreto, y para cualquier valor P concreto un mayor tamaño de muestra indica que el verdadero tamaño del efecto está probablemente más cerca del tamaño del efecto observado. Las pruebas de significación deben considerarse en el contexto de la estimación, no de los errores. Una muestra más grande siempre proporciona más información; cómo interpretarla depende del experimentador. La queja del efecto insignificante de una muestra grande sólo es un problema para las pruebas de hipótesis Neyman-Pearsonianas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X