En una prueba de significación estadística con signo de Wilcoxon, nos encontramos con unos datos que producen un $p$ -valor de $0.04993$ . Con un umbral de $p < 0.05$ ¿es este resultado suficiente para rechazar la hipótesis nula, o es más seguro decir que la prueba no fue concluyente, ya que si redondeamos el valor p a 3 decimales se convierte en $0.050$ ?
Respuestas
¿Demasiados anuncios?Hay dos cuestiones aquí:
1) Si estás haciendo un test de hipótesis formal (y si llegas a citar un valor p en mi libro ya lo estás haciendo), ¿qué es la regla de rechazo formal?
Al comparar las estadísticas de las pruebas con los valores críticos, el valor crítico es en la región de rechazo . Aunque esta formalidad no importa mucho cuando todo es continuo, sí importa cuando la distribución de la estadística de la prueba es discreta.
En consecuencia, cuando se comparan los valores p y los niveles de significación, la regla es:
Rechazar si $p\leq\alpha$
Tenga en cuenta que, aunque redondee su valor p a 0,05, de hecho, aunque el $p$ era exactamente 0,05, formalmente, aún debe rechazar .
2) En cuanto a "qué nos dice nuestro valor p", suponiendo que se pueda interpretar un valor p como "evidencia contra el nulo" (digamos que la opinión al respecto está algo dividida), 0,0499 y 0,0501 no dicen realmente cosas diferentes sobre los datos (los tamaños del efecto tenderían a ser casi idénticos).
Mi sugerencia sería (1) rechazar formalmente la nulidad, y tal vez señalar que incluso si fuera exactamente 0,05 todavía debería ser rechazada; (2) señalar que no hay nada particularmente especial sobre $\alpha = 0.05$ y está muy cerca de ese límite, incluso un umbral de significación ligeramente menor no llevaría al rechazo.
Está en el ojo del que mira.
Formalmente, si hay una regla de decisión estricta para su problema, sígala. Esto significa que $\alpha$ se da. Sin embargo, no conozco ningún problema en el que esto sea así (aunque la configuración $\alpha=0.05$ es lo que hacen muchos profesionales después de Estadística101).
Así que realmente se reduce a lo que comentaba antes AlefSin. No puede haber una "respuesta correcta" a tu pregunta. Informa de lo que tienes, redondeado o no.
Existe una enorme literatura sobre el "significado de la significación"; véase, por ejemplo, el reciente artículo de uno de los principales estadísticos alemanes, Walter Krämer, sobre "El culto a la significación estadística - Lo que los economistas deben y no deben hacer para que sus datos hablen", Anuario de Schmoller 131 , 455-468, 2011.
A la luz de los supuestos de su modelo, debe rechazar el nulo porque las afirmaciones dicotómicas basadas en las pruebas de hipótesis tienen claras funciones epistemológicas y pragmáticas . Pero nunca olvides que: "Ningún experimento aislado, por muy significativo que sea en sí mismo, puede bastar para la demostración experimental de cualquier fenómeno natural; pues la "casualidad entre un millón" se producirá sin duda, ni con menos ni con más frecuencia de la que le corresponde, por muy sorprendidos que estemos de que nos ocurra. Para afirmar que un fenómeno natural es demostrable experimentalmente necesitamos, no un registro aislado, sino un método de procedimiento fiable. En relación con la prueba de significación, podemos decir que un fenómeno es demostrable experimentalmente cuando sabemos cómo llevar a cabo un experimento que raramente dejará de darnos un resultado estadísticamente significativo". Fisher, R. A. (1935). El diseño de experimentos. Oliver & Boyd.
En el sentido pragmático, debería rechazar. En el sentido estadístico, necesitas más datos.
El umbral de 0,05 es un obstáculo que usted han establecido para usted mismo para imponer un grado de autoescepticismo sobre su hipótesis alternativa. Ese autoescepticismo se debilita un poco si se cambia la definición del umbral después de ver el resultado. La verdadera cuestión es por qué que está realizando un NHST, ¿qué cree que le dice (probablemente no mucho en la mayoría de los casos)?
El umbral debe establecerse en función de la naturaleza del experimento, por lo que no existe un umbral único. Habría sido igual de válido fijar el umbral en 0,04992 (una elección un poco impar) antes de realizando el NHST, por lo que la diferencia no es realmente significativa (excepto en lo que nos dice sobre nuestro autoescepticismo).
Siempre se puede informar del valor p y dejar que el lector saque sus propias conclusiones (es decir, no rechazar o aceptar cualquier cosa ).
La respuesta es en absoluto . No hay "a ojo de buen cubero", no hay discusión, la respuesta es no, sus datos no son significativos en el $p=0.05$ nivel . (Vale, hay una salida, pero es un camino muy estrecho).
El problema clave es esta frase: "Nosotros se encontró con algunos datos...".
Esto sugiere que ha examinado otras hipótesis estadísticas y las ha rechazado porque no alcanzaban su nivel de significación. Ha encontrado una hipótesis que (apenas) cumple su nivel, y se pregunta si es significativa. A menos que su $p$ valor tiene en cuenta esas múltiples pruebas de hipótesis, es excesivamente optimista. Dado que está a sólo tres decimales de su umbral, considerando incluso un hipótesis adicional seguramente empujaría $p$ sobre la línea.
Hay un nombre para este tipo de malversación estadística: dragado de datos . Soy ambivalente a la hora de informar en el artículo como una hipótesis interesante; ¿tiene alguna razón física por la que se espera que se mantenga?
Sin embargo, hay una salida. Tal vez haya decidido a priori para realizar justamente esto un prueba sólo con esto un conjunto de datos. Lo anotaste en tu cuaderno de laboratorio, delante de alguien, para poder demostrarlo después. Luego hiciste la prueba.
Si ha hecho esto, entonces su resultado es válido en el $p=0.05$ nivel, y puedes respaldar a los escépticos como yo. De lo contrario, lo siento, no es un resultado estadísticamente significativo.
27 votos
0,04993 < 0,05, por lo que es simplemente inferior. Tu instinto es bueno al decir que no se puede confiar en ningún valor P con varios decimales, pero si el programa dice menos de 0,05, la gente generalmente lo toma como entregado. El verdadero problema aquí es hacer un fetiche de las pruebas de significación de nivel fijo, de modo que < 0,05 significa "real", "publicable", "causa de felicidad" y lo contrario significa "ilusorio", "no publicable", "causa de miseria". La mayoría de los buenos textos de introducción a la estadística tratan este tema en cierta medida. Uno de ellos es Freedman, Pisani y Purves, Estadísticas . Nueva York: W.W. Norton, cualquier edición.
9 votos
Tienes que preguntarte cuál sería tu decisión si el valor p es de 0,051. ¿Y si es de 0,049? ¿Tomarías decisiones diferentes? ¿Por qué?
2 votos
Gracias por sus comentarios. En nuestro caso no nos estamos planteando si los datos son publicables o no, etc. Simplemente estamos considerando hacer una declaración en el documento sobre la importancia estadística de este resultado, y queremos asegurarnos de que nuestra declaración no es incorrecta o inexacta.
3 votos
Me viene a la mente el informe P=0,04993. Es difícil predecir los comentarios de los revisores o editores. Si se quiere redondear, especificar una convención de redondeo consistente es siempre una buena idea y ampliamente aceptable. Algunas personas redondearían a 3 p.d. y también utilizarían algún tipo de convención de estrella, por lo que informar de 0,050 (3 p.d.) y marcarlo como <0,05 es coherente.
1 votos
¿Cuál es el valor W de la estadística? ¿Cuál sería el valor crítico correspondiente de su valor p? ¿Qué distancia hay entre ellos?
1 votos
@IslamEl-Nabarawy ya que el nivel de significación es arbitrario de todos modos, si lo has definido al 5% entonces sí el valor p es significativo según tu definición del mismo. Al mismo tiempo, creo que AlefSin hace una buena observación.
0 votos
@NickCox: Informamos de todos los resultados a 4 p.d., y en el texto señalamos que, aunque es inferior a 0,05, sólo lo era por un margen muy estrecho.
1 votos
¿Cree que esta importancia estadística tiene un significado práctico? Conozca el significado de la significación estadística antes de afirmarla.
3 votos
No sé... quizás deberíamos hacer un doble bootstrap y calcular un intervalo de confianza para el $p$ -¡Valor! Con toda honestidad, yo informaría: "Los hallazgos estaban al límite de lo significativo, $0.049 < p < 0.050$ ." En ese punto, estás dividiendo los pelos, y todo el mundo recuerda de repente que 1/20 probabilidades de un falso positivo es una forma completamente arbitraria de dirigir la ciencia.