El consenso general en torno a una pregunta similar, ¿por Qué está mal para referirse a los resultados como "muy significativo? es que "muy significativo" es válida, aunque no específica, la forma de describir la fuerza de una asociación que tiene un p-valor muy por debajo de su pre-establecer el umbral de significancia. Sin embargo, ¿qué acerca de los valores de p que se encuentran ligeramente por encima de su umbral? He visto algunos artículos se usan términos como "algo importante", "casi significativo", "se aproxima a la significación", y así sucesivamente. Me parece que estos términos son un poco insípidos, en algunos casos, un límite de la falsa manera de sacar un resultado significativo de un estudio con resultados negativos. Son estos términos aceptables para describir los resultados que "echo de menos" a su p-valor de corte?
Respuestas
¿Demasiados anuncios?Si desea permitir que la "significación" admitir grados entonces justo suficiente ("algo significativo", "bastante significativa"), pero evite frases que sugieren que todavía está casados con la idea de un umbral, como "casi significativo", "al significado", o "en la cúspide de la significación" (mi favorita de "no significativa" en el blog de Probable Error), si no quieres parecer desesperado.
Desde mi punto de vista, la cuestión se reduce a lo que en realidad significa llevar a cabo una significación de la prueba. Pruebas de significación fue concebido como un medio de tomar la decisión de rechazar la hipótesis nula o no se puede rechazar. Fisher introdujo el infame 0.05 regla para hacer que (arbitraria) de la decisión.
Básicamente, la lógica de las pruebas de significación es que el usuario tiene que especificar un nivel alfa para rechazar la hipótesis nula (convencionalmente 0.05) antes de la recolección de los datos. Después de completar el significado de la prueba, el usuario rechaza la nula si el valor p es menor que el nivel alfa (o no rechazar lo contrario).
La razón por la cual usted no puede declarar un efecto altamente significativo (es decir, en el nivel de 0.001) es porque no puede encontrar la evidencia más fuerte de lo que usted se puso a buscar. Así que, si tu nivel alfa 0,05 antes de la prueba, sólo se puede encontrar evidencia en el nivel de 0.05, independientemente de lo pequeño que sus valores de p es. De la misma manera, hablando de los efectos que son "algo importante" o "se aproxima a la significación" también no tiene mucho sentido porque usted eligió este arbitrario criterio de 0.05. Si usted interpretar la lógica de las pruebas de significación muy literalmente, cualquier cosa mayor que 0.05, no es significativa.
Estoy de acuerdo en que términos como "se aproxima a la significación" se utiliza a menudo para mejorar las perspectivas de la publicación. Sin embargo, no creo que los autores pueden ser culpados por que debido a la publicación actual de la cultura en algunas ciencias todavía en gran medida se basa en el "santo grial" de 0.05.
Algunos de estos temas son tratados en:
Gigerenzer, G. (2004). Sin sentido de estadísticas. El Diario de la Socio-Economía, 33(5), 587-606.
Royall, R. (1997). Evidencia estadística: probabilidad de paradigma (Vol. 71). CRC press.
La diferencia entre dos valores de p de sí mismo normalmente no es significativo. Así que, no importa si el p-valor es de 0.05, 0.049, 0.051...
Con respecto a los valores de p como una medida de la fuerza de la asociación: Un p-valor no es directamente una medida de fuerza de asociación. Un p-valor es la probabilidad de encontrar tan extremo o más extrema de datos como los datos que se han observado, dado que el parámetro es la hipótesis de 0 (si uno está interesado en la hipótesis nula -- ver Nick Cox comentario). Sin embargo, a menudo no es la cantidad que el investigador está interesado en. Muchos investigadores están más interesados en responder a preguntas como "¿cuál es la probabilidad de que el parámetro a ser mayor que en el elegido del valor de corte?" Si esto es lo que usted está interesado en, necesita incorporar adicionales de información previa en el modelo.
Esta pendiente resbaladiza llama de nuevo a la Fisher vs Neymar/Pearson marco para el contraste de hipótesis pruebas de significación (NHST). Por un lado, se quiere hacer una evaluación cuantitativa de cuán poco probable que un resultado es bajo la hipótesis nula (por ejemplo, los tamaños del efecto). Por otro lado, al final del día, usted quiere un discreto decisión en cuanto a si los resultados son o no son, es probable que haya sido debido a la casualidad. Lo que hemos acabado con un tipo de enfoque híbrido que no es muy satisfactorio.
En la mayoría de las disciplinas, los convencionales p de significación se estableció en 0,05, pero realmente no hay conexión a tierra de por qué esto debe ser así. Cuando voy a revisar a un papel, no tengo absolutamente ningún problema con un autor de llamada 0.06 significativa, o incluso de 0.07, siempre que la metodología es el sonido, y la imagen completa, incluyendo todos los análisis, figuras, etc. decirle a un coherente y creíble de la historia. Donde meterte en problemas cuando los autores intento de hacer una historia trivial de datos con pequeños tamaños de efecto. Por el contrario, tal vez no totalmente "creer" una prueba es prácticamente significativa incluso cuando llega convencional p < 0.05 de significancia. Un colega mío dijo una vez: "Su estadística debe simplemente copia de seguridad de lo que ya es evidente en las cifras."
Que todo lo dicho, creo que Vasilev es correcta. Dado el roto sistema de publicación, que bastante tienen para incluir los valores de p, y por lo tanto, que bastante tienen el uso de la palabra "significativo" para ser tomado en serio, incluso si se requiere adjetivos como "marginal" (que yo prefiero). Siempre se puede luchar contra él en la revisión por pares, pero hay que llegar primero.