21 votos

Terminología recomendada "estadísticamente significativo"

Tras la reciente ASA y otros comentarios sobre los valores de p y no usar el término "estadísticamente significativo" ¿cuál es la recomendación para la presentación de los resultados de un análisis?

Por ejemplo, si I llevó a cabo una prueba t debido a la forma en que me enseñaron las estadísticas me gustaría decir algo como 'p = 0.03, el resultado fue estadísticamente significativo" (suponiendo que yo había establecido la significación en 0,05). Haría todo lo que necesitas hacer ahora es sólo el estado 'p = 0,03' y posiblemente incluir un intervalo de confianza?

30voto

Zizzencs Puntos 1358

No creo que la objeción es sólo el término "estadísticamente significativo", pero al abuso del concepto de significación estadística de la prueba y de la interpretación de los resultados, que son (o no son) estadísticamente significativa.

En particular, mira estos seis declaraciones:

  1. Los valores de P puede indicar como incompatibles los datos con un determinado modelo estadístico.
  2. Los valores de P no miden la probabilidad de que el estudiado hipótesis es verdadera, o la probabilidad de que los datos fueron producidos por el azar la casualidad.
  3. Las conclusiones científicas y de negocios o de la política de decisiones no deben basarse sólo en si el p-valor pasa de un umbral específico.
  4. La correcta inferencia requiere de la completa presentación de informes y transparencia.
  5. Un p-valor o la significación estadística, no mide el tamaño de un efecto o la importancia de un resultado.
  6. Por sí mismo, un valor de p no proporciona una buena medida de la evidencia con respecto a un modelo o hipótesis.

Así, ellos están recomendando un más exhaustivo de la forma de hacer y de presentación de informes de análisis que simplemente dando un valor de p, o, incluso, un valor de p con un CI. Creo que esta es sabio y no creo que debería ser objeto de controversia.

Ahora, voy a ir a partir de su declaración a mis propios puntos de vista, yo diría que nosotros a veces no mencionar el valor de p en todos. En muchos casos, no proporcionar información útil. Casi siempre, sabemos de antemano que el valor null no es exactamente así y, muy a menudo, sabemos que no es ni siquiera cerca de la verdad.

Qué hacer en su lugar? Recomiendo Robert Abelson la MAGIA criterios: Magnitud, la Articulación, la Generalidad, Interés y Credibilidad. Puedo decir mucho más sobre esto en mi blog: Estadísticas 101: La MAGIA de los criterios.

(Mis puntos de vista, a diferencia de los de la AAA, son controvertidos. Muchas personas no están de acuerdo con ellos).

9voto

tchen Puntos 1344

"significación estadística" sonidos oficial y formal. Es una manera de poner un sello de "validez" en su resultado, que no es ofrecida por el procedimiento. Probablemente es por eso que ASA es contra el término.

En mi opinión, uno de los más honestos y sin embargo no técnico fraseo sería algo como:

El resultado obtenido es de extrañar/inesperado (p = 0,03), bajo el supuesto de la no diferencia de medias entre los grupos.

O, lo que permite el formato, que puede ser ampliada:

La obtenida a diferencia de $\Delta m$ sería bastante sorprendente (p = 0,03) bajo el escenario de dos normalmente distribuida grupos con igualdad de medios y una desviación estándar de $\sigma$. Dado que nuestros datos no se aparta demasiado de las distribuciones que se utilizan dentro de la prueba se obtiene un resultado que sugiere que los medios de los dos grupos son diferentes o poco frecuente que una de muestreo de los resultados ha producido.

7voto

Aaron Puntos 36

Estoy de acuerdo con la respuesta de Pedro Flom, pero me gustaría añadir un punto adicional en el uso del término "significado" en las pruebas de hipótesis estadísticas. La mayoría de las pruebas de hipótesis de interés en las estadísticas tienen una hipótesis nula que postula un valor cero para algún "efecto" y una hipótesis alternativa que goza de un no-cero (positivo o negativo) valor para ese efecto". Correctamente interpretado, el p-valor es una medida de la evidencia en favor de la hipótesis alternativa, en relación a la hipótesis nula (y bajo las condiciones estipuladas en el modelo). No es una medida de la magnitud del efecto que se estipula a ser distinto de cero bajo la hipótesis alternativa.$^\dagger$

En vista de esto, mi opinión es que la mejor práctica para la presentación de informes de resultados es referirse a algo como "evidencia significativa de un no-cero efecto". Lo importante aquí es que el cuantificador "significativo" se anexa a la "evidencia", no el "efecto". En mi punto de vista, diciendo algo así como "hay un efecto significativo" es una peligrosa forma de taquigrafía que comete el cuantificador cambio falacia --- en la jerga de los laicos, evidencia significativa de un no-cero efecto es muy diferente a la evidencia de un efecto significativo. Dicho lenguaje se invita al lector a entender el significado de la p-valor, y mezclan la significación estadística con el significado práctico.

Este es el más común de abuso del término "significado" veo en los artículos publicados y en otros lugares. Es omnipresente ver las referencias a un "efecto significativo" o "efecto estadísticamente significativo", en lugar de la más precisa "la importancia de la evidencia de un no-cero efecto".


$^\dagger$ Aunque, obviamente, estas cosas están relacionadas matemáticamente. En términos generales, el más grande es el verdadero efecto, cuanto más concentrada es la distribución de la p-valor cercano a cero. A pesar de este hecho, el p-valor no debe generalmente ser usada como una medida de la magnitud del efecto.

5voto

reinierpost Puntos 101

En general, estoy de acuerdo con las siguientes declaraciones en el editorial de trasladarse a un Mundo más Allá de la "p < 0,05" que es parte de la edición especial Inferencia Estadística en el Siglo 21: Un Mundo más Allá de p < 0.05 de La American Estadístico:

Lo que usted NO encontrará en este problema es una solución que majestuosamente se sustituye el enorme papel que la significación estadística ha llegado a jugar. La estadística de la comunidad aún no ha convergido en un simple paradigma para el uso de la inferencia estadística, científica la investigación-y, de hecho, puede que nunca lo haga.

Resumimos nuestras recomendaciones en dos condenas por un total de siete palabras: Unccept incertidumbre. Ser thoughtful, ode la pluma, y modest. Recuerde "ÁTOMO."

Los autores de los 43 artículos de la edición especial cada proporcionan (diferentes) de las respuestas a su pregunta. Personalmente, me gusta mucho el siguiente conjunto de sugerencias que Lijadora de Groenlandia da (copia-pega de la editorial se mencionó anteriormente):

  1. Reemplace cualquier afirmación acerca de la significación estadística de un resultado con el p-valor de la prueba, y el p-valor de la igualdad, no una desigualdad. Por ejemplo, si p = 0.03, a continuación, "...fue estadísticamente significativo" sería reemplazado por "...había p = 0.03," y "p < 0.05" sería reemplazado por "p = 0.03." (Una excepción: Si p es tan pequeño que la exactitud se vuelve muy pobre, a continuación, una desigualdad que refleja que el límite es el apropiado; por ejemplo, dependiendo del tamaño de la muestra, p-valores de normal o $\chi^2$ aproximaciones discretas de datos a menudo carecen de incluso 1-dígitos de precisión a la hora de p < 0.0001.) En paralelo, si p = 0.25 a continuación, "...no fue estadísticamente significativa" sería reemplazado por "...había p = 0.25," y "p > 0.05" sería reemplazado por "p = 0.25."

  2. Presente p-valores para más de una posibilidad, cuando las pruebas selectivas parámetro. Por ejemplo, si usted habla de la p-valor de una prueba de una hipótesis nula, también discutir junto a este nulo p-valor otro p-valor para una alternativa plausible parámetro posibilidad (lo ideal es la que se utiliza para calcular la potencia en la propuesta de estudio). Como otro ejemplo: si usted hace una equivalencia de la prueba, presentar los p-valores por tanto los límites inferior y superior del intervalo de equivalencia (que se utilizan para la equivalencia de pruebas basado en dos pruebas unilaterales).

  3. Muestran los intervalos de confianza para ciertos parámetros de estudio, sino también complementar con p-valores para la prueba de hipótesis relevantes (por ejemplo, los p-valores para el nula y la hipótesis alternativa se utiliza para el diseño del estudio o propuesta, como en el #2). Los intervalos de confianza sólo mostrar claramente lo que está en el intervalo (es decir, un 95% intervalo de sólo muestra claramente lo que ha p > 0.05 o p ≤ 0.05), pero más detalle a menudo es deseable para las principales hipótesis en conflicto. [...]

  4. Suplemento focal p-valor p con su Shannon información de transformación (valor de s-o surprisal) $s = -log_2(p)$. Este mide la cantidad de la información proporcionada por la prueba en contra de la prueba hipótesis (o modelo): Redondeado, el valor de s-s muestra el número de cabezas en una fila uno tendría que ver al lanzar una moneda para obtener el misma cantidad de información en contra de los lanzamientos de ser "justo" (independiente con respecto a los "jefes" de la probabilidad de 1/2) en lugar de ser cargado para los jefes. Por ejemplo, si p = 0.03, esto representa el $–log_2(0.03) = 5$ bits de información en contra de la hipótesis (como la obtención de 5 cabezas en una prueba de la "equidad" con 5 lanzar una moneda); y si p = 0.25, este representa sólo el $–log_2(0.25) = 2$ bits de información en contra de la hipótesis (como la obtención de 2 cabezas en un ensayo de la "equidad" con sólo 2 lanzar una moneda).

3voto

rajakvk Puntos 1965

Si sabemos que la hipótesis nula no es exactamente cierto, sin embargo, el resultado no es estadísticamente significativa, entonces eso es un problema del tamaño de la muestra, o el poder estadístico. La significación estadística no es realmente un objetivo, es una necesidad que se logra con adecuado poder estadístico. El mismo efecto tamaño, los resultados de dos experimentos puede ser significativo estadísticamente, o no, dependiendo del tamaño de la muestra. Sin embargo, confío en que el efecto estadísticamente significativo de tamaño más que la otra porque tiene un mayor tamaño de la muestra.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X