21 votos

¿Es suficiente un valor p de 0,04993 para rechazar la hipótesis nula?

En una prueba de significación estadística con signo de Wilcoxon, nos encontramos con unos datos que producen un $p$ -valor de $0.04993$ . Con un umbral de $p < 0.05$ ¿es este resultado suficiente para rechazar la hipótesis nula, o es más seguro decir que la prueba no fue concluyente, ya que si redondeamos el valor p a 3 decimales se convierte en $0.050$ ?

27 votos

0,04993 < 0,05, por lo que es simplemente inferior. Tu instinto es bueno al decir que no se puede confiar en ningún valor P con varios decimales, pero si el programa dice menos de 0,05, la gente generalmente lo toma como entregado. El verdadero problema aquí es hacer un fetiche de las pruebas de significación de nivel fijo, de modo que < 0,05 significa "real", "publicable", "causa de felicidad" y lo contrario significa "ilusorio", "no publicable", "causa de miseria". La mayoría de los buenos textos de introducción a la estadística tratan este tema en cierta medida. Uno de ellos es Freedman, Pisani y Purves, Estadísticas . Nueva York: W.W. Norton, cualquier edición.

9 votos

Tienes que preguntarte cuál sería tu decisión si el valor p es de 0,051. ¿Y si es de 0,049? ¿Tomarías decisiones diferentes? ¿Por qué?

2 votos

Gracias por sus comentarios. En nuestro caso no nos estamos planteando si los datos son publicables o no, etc. Simplemente estamos considerando hacer una declaración en el documento sobre la importancia estadística de este resultado, y queremos asegurarnos de que nuestra declaración no es incorrecta o inexacta.

21voto

AdamSane Puntos 1825

Hay dos cuestiones aquí:

1) Si estás haciendo un test de hipótesis formal (y si llegas a citar un valor p en mi libro ya lo estás haciendo), ¿qué es la regla de rechazo formal?

Al comparar las estadísticas de las pruebas con los valores críticos, el valor crítico es en la región de rechazo . Aunque esta formalidad no importa mucho cuando todo es continuo, sí importa cuando la distribución de la estadística de la prueba es discreta.

En consecuencia, cuando se comparan los valores p y los niveles de significación, la regla es:

          Rechazar si $p\leq\alpha$

Tenga en cuenta que, aunque redondee su valor p a 0,05, de hecho, aunque el $p$ era exactamente 0,05, formalmente, aún debe rechazar .

2) En cuanto a "qué nos dice nuestro valor p", suponiendo que se pueda interpretar un valor p como "evidencia contra el nulo" (digamos que la opinión al respecto está algo dividida), 0,0499 y 0,0501 no dicen realmente cosas diferentes sobre los datos (los tamaños del efecto tenderían a ser casi idénticos).

Mi sugerencia sería (1) rechazar formalmente la nulidad, y tal vez señalar que incluso si fuera exactamente 0,05 todavía debería ser rechazada; (2) señalar que no hay nada particularmente especial sobre $\alpha = 0.05$ y está muy cerca de ese límite, incluso un umbral de significación ligeramente menor no llevaría al rechazo.

6voto

Wickethewok Puntos 2212

Está en el ojo del que mira.

Formalmente, si hay una regla de decisión estricta para su problema, sígala. Esto significa que $\alpha$ se da. Sin embargo, no conozco ningún problema en el que esto sea así (aunque la configuración $\alpha=0.05$ es lo que hacen muchos profesionales después de Estadística101).

Así que realmente se reduce a lo que comentaba antes AlefSin. No puede haber una "respuesta correcta" a tu pregunta. Informa de lo que tienes, redondeado o no.

Existe una enorme literatura sobre el "significado de la significación"; véase, por ejemplo, el reciente artículo de uno de los principales estadísticos alemanes, Walter Krämer, sobre "El culto a la significación estadística - Lo que los economistas deben y no deben hacer para que sus datos hablen", Anuario de Schmoller 131 , 455-468, 2011.

2voto

Vygonzalo Puntos 11

A la luz de los supuestos de su modelo, debe rechazar el nulo porque las afirmaciones dicotómicas basadas en las pruebas de hipótesis tienen claras funciones epistemológicas y pragmáticas . Pero nunca olvides que: "Ningún experimento aislado, por muy significativo que sea en sí mismo, puede bastar para la demostración experimental de cualquier fenómeno natural; pues la "casualidad entre un millón" se producirá sin duda, ni con menos ni con más frecuencia de la que le corresponde, por muy sorprendidos que estemos de que nos ocurra. Para afirmar que un fenómeno natural es demostrable experimentalmente necesitamos, no un registro aislado, sino un método de procedimiento fiable. En relación con la prueba de significación, podemos decir que un fenómeno es demostrable experimentalmente cuando sabemos cómo llevar a cabo un experimento que raramente dejará de darnos un resultado estadísticamente significativo". Fisher, R. A. (1935). El diseño de experimentos. Oliver & Boyd.

En el sentido pragmático, debería rechazar. En el sentido estadístico, necesitas más datos.

2voto

John Richardson Puntos 1197

El umbral de 0,05 es un obstáculo que usted han establecido para usted mismo para imponer un grado de autoescepticismo sobre su hipótesis alternativa. Ese autoescepticismo se debilita un poco si se cambia la definición del umbral después de ver el resultado. La verdadera cuestión es por qué que está realizando un NHST, ¿qué cree que le dice (probablemente no mucho en la mayoría de los casos)?

El umbral debe establecerse en función de la naturaleza del experimento, por lo que no existe un umbral único. Habría sido igual de válido fijar el umbral en 0,04992 (una elección un poco impar) antes de realizando el NHST, por lo que la diferencia no es realmente significativa (excepto en lo que nos dice sobre nuestro autoescepticismo).

Siempre se puede informar del valor p y dejar que el lector saque sus propias conclusiones (es decir, no rechazar o aceptar cualquier cosa ).

-5voto

Estela Puntos 26

La respuesta es en absoluto . No hay "a ojo de buen cubero", no hay discusión, la respuesta es no, sus datos no son significativos en el $p=0.05$ nivel . (Vale, hay una salida, pero es un camino muy estrecho).

El problema clave es esta frase: "Nosotros se encontró con algunos datos...".

Esto sugiere que ha examinado otras hipótesis estadísticas y las ha rechazado porque no alcanzaban su nivel de significación. Ha encontrado una hipótesis que (apenas) cumple su nivel, y se pregunta si es significativa. A menos que su $p$ valor tiene en cuenta esas múltiples pruebas de hipótesis, es excesivamente optimista. Dado que está a sólo tres decimales de su umbral, considerando incluso un hipótesis adicional seguramente empujaría $p$ sobre la línea.

Hay un nombre para este tipo de malversación estadística: dragado de datos . Soy ambivalente a la hora de informar en el artículo como una hipótesis interesante; ¿tiene alguna razón física por la que se espera que se mantenga?

Sin embargo, hay una salida. Tal vez haya decidido a priori para realizar justamente esto un prueba sólo con esto un conjunto de datos. Lo anotaste en tu cuaderno de laboratorio, delante de alguien, para poder demostrarlo después. Luego hiciste la prueba.

Si ha hecho esto, entonces su resultado es válido en el $p=0.05$ nivel, y puedes respaldar a los escépticos como yo. De lo contrario, lo siento, no es un resultado estadísticamente significativo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X