He completado mi análisis de datos y he obtenido "resultados estadísticamente significativos", lo que es coherente con mi hipótesis. Sin embargo, un estudiante de estadística me ha dicho que esta es una conclusión prematura. ¿Por qué? ¿Hay que incluir algo más en mi informe?
Respuestas
¿Demasiados anuncios?Prueba de hipótesis frente a estimación de parámetros
Normalmente, las hipótesis se plantean de forma binaria. Dejaré de lado las hipótesis direccionales, ya que no cambian mucho la cuestión. Es habitual, al menos en psicología, hablar de hipótesis como: la diferencia entre las medias de los grupos es o no es cero; la correlación es o no es cero; el coeficiente de regresión es o no es cero; el r-cuadrado es o no es cero. En todos estos casos, hay una hipótesis nula de ausencia de efecto y una hipótesis alternativa de efecto.
Este pensamiento binario no es generalmente lo que más nos interesa. Una vez que piense en su pregunta de investigación, casi siempre encontrará que en realidad está interesado en estimar parámetros. Le interesa la diferencia real entre las medias de los grupos, o el tamaño de la correlación, o el tamaño del coeficiente de regresión, o la cantidad de varianza explicada.
Por supuesto, cuando obtenemos una muestra de datos, la estimación muestral de un parámetro no es la misma que el parámetro poblacional. Por tanto, necesitamos una forma de cuantificar nuestra incertidumbre sobre cuál podría ser el valor del parámetro. Desde una perspectiva frecuentista, los intervalos de confianza proporcionan un medio de hacerlo, aunque los puristas bayesianos podrían argumentar que no permiten estrictamente la inferencia que se quiere hacer. Desde una perspectiva bayesiana, los intervalos de confianza sobre las densidades posteriores proporcionan un medio más directo de cuantificar su incertidumbre sobre el valor de un parámetro de la población.
Parámetros / tamaños del efecto
Alejarse del enfoque binario de las pruebas de hipótesis obliga a pensar de forma continua. Por ejemplo, ¿qué diferencia de tamaño entre las medias de los grupos sería teóricamente interesante? ¿Cómo se puede trasladar la diferencia entre las medias de los grupos al lenguaje subjetivo o a las implicaciones prácticas? Las medidas de efecto estandarizadas junto con las normas contextuales son una forma de construir un lenguaje para cuantificar lo que significan los diferentes valores de los parámetros. Estas medidas suelen denominarse "tamaños de efecto" (por ejemplo, la d de Cohen, r, $R^2$ etc.). Sin embargo, es perfectamente razonable, y a menudo preferible, hablar de la importancia de un efecto utilizando medidas no estandarizadas (por ejemplo, la diferencia en las medias de los grupos en variables significativas no estandarizadas como los niveles de ingresos, la esperanza de vida, etc.).
Hay una enorme literatura en psicología (y en otros campos) que critica el enfoque en los valores p, las pruebas de significación de hipótesis nulas, etc. (ver esto Búsqueda en Google Scholar ). Esta literatura recomienda a menudo informar de los tamaños de los efectos con intervalos de confianza como resolución (por ejemplo, APA Task force de Wilkinson, 1999).
Pasos para dejar de lado las pruebas de hipótesis binarias
Si estás pensando en adoptar este pensamiento, creo que hay enfoques progresivamente más sofisticados que puedes adoptar:
- Enfoque 1a. Comunique la estimación puntual del efecto de su muestra (por ejemplo, las diferencias medias de los grupos) tanto en términos brutos como estandarizados. Cuando informe de sus resultados, discuta lo que dicha magnitud significaría para la teoría y la práctica.
- Enfoque 1b. Añada a 1a, al menos a un nivel muy básico, algún sentido de la incertidumbre en torno a su estimación de parámetros basada en el tamaño de la muestra.
- Enfoque 2. Informe también sobre los intervalos de confianza de los tamaños del efecto e incorpore esta incertidumbre a su reflexión sobre los valores plausibles del parámetro de interés.
- Enfoque 3. Informar sobre los intervalos creíbles bayesianos y examinar las implicaciones de varios supuestos sobre ese intervalo creíble, como la elección del previo, el proceso de generación de datos implícito en su modelo, etc.
Entre las muchas referencias posibles, verá Andrew Gelman habla mucho de estos temas en su blog y en sus investigaciones.
Referencias
- Nickerson, R. S. (2000). Null hypothesis significance testing: a review of an old and continuing controversy. Psychological methods, 5(2), 241.
- Wilkinson, L. (1999). Métodos estadísticos en las revistas de psicología: directrices y explicaciones. American psychologist, 54(8), 594. PDF
Sólo para añadir a las respuestas existentes (que son estupendas, por cierto). Es importante tener en cuenta que la significación estadística es una función del tamaño de la muestra .
Cuando se obtienen más y más datos, se pueden encontrar diferencias estadísticamente significativas dondequiera que se mire. Cuando la cantidad de datos es enorme, incluso los efectos más pequeños pueden dar lugar a una significación estadística. Esto no implica que dichos efectos sean significativos en ningún sentido práctico.
Al comprobar las diferencias, $p$ -Los valores por sí solos no son suficientes porque el tamaño del efecto necesario para producir un resultado estadísticamente significativo disminuye al aumentar el tamaño de la muestra . En la práctica, la pregunta real suele ser si existe un efecto de un tamaño mínimo determinado (para ser relevante). Cuando las muestras son muy grandes, $p$ -Los valores se vuelven casi insignificantes a la hora de responder a la actual pregunta.
Si había una base razonable para sospechar que su hipótesis podría ser cierta antes de llevar a cabo su estudio; y realizó un buen estudio (por ejemplo, no indujo ninguna confusión); y sus resultados fueron consistentes con su hipótesis y estadísticamente significativos; entonces creo que está bien, en lo que respecta a eso.
Sin embargo, no debe pensar que la significación es lo único importante en sus resultados. En primer lugar, hay que fijarse en el tamaño del efecto también (ver mi respuesta aquí: El tamaño del efecto como hipótesis para la prueba de significación ). También podría explorar un poco sus datos y ver si puede encontrar alguna sorpresa potencialmente interesante que valga la pena seguir.
Antes de informar sobre esto y esto y esto, empiece por formular lo que quiere aprender de sus datos experimentales. El principal problema de las pruebas de hipótesis habituales (esas pruebas que aprendemos en la escuela...) no es la binaridad: el principal problema es que son pruebas para hipótesis que no son hipótesis de interés. Vea la diapositiva 13 aquí (descargue el pdf para apreciar las animaciones). Sobre los tamaños de los efectos, no hay una definición general de esta noción . Francamente, no recomendaría su uso a estadísticos no expertos, ya que se trata de medidas de "efecto" técnicas, no naturales. Su hipótesis de interés debe formularse en términos comprensibles para los profanos.
No soy ni mucho menos un experto en estadística, pero algo en lo que se ha hecho hincapié en los cursos de estadística que he realizado hasta la fecha es el tema de la "significación práctica". Creo que esto alude a lo que Jeromy y gung hablan cuando se refieren al "tamaño del efecto".
En clase tuvimos un ejemplo de una dieta de 12 semanas que tenía resultados de pérdida de peso estadísticamente significativos, pero el intervalo de confianza del 95% mostraba una pérdida de peso media de entre 0,2 y 1,2 kg (vale, los datos eran probablemente inventados, pero ilustran un punto). Aunque sea "estadísticamente significativa" la diferencia con respecto a cero, ¿una pérdida de peso de 200 gramos en 12 semanas es un resultado "prácticamente significativo" para una persona con sobrepeso que intenta estar sana?
- Ver respuestas anteriores
- Ver más respuestas