8 votos

Desacuerdo entre los valores p y los intervalos de confianza

Esta es una pregunta sobre la prueba t en el SPSS.

Tengo dos grupos y quiero probar si las dos medias son iguales. Estoy utilizando la prueba t con bootstrapping. Al final obtuve un valor p<0,005, que generalmente me haría rechazar la hipótesis nula de que las medias de las dos poblaciones son iguales, pero en mi caso el cero se encuentra dentro de los intervalos de confianza del 95% BCa bootstrap basados en 1000 muestras.

¿Sigo rechazando la hipótesis de igualdad de medias?

1 votos

Para aclararlo, ¿realizó una prueba t con bootstrap a partir de la cual está comparando el valor p y el IC del 95%, o realizó una prueba t estándar (sin bootstrap) para obtener el valor p y sólo utilizó el bootstrap para el IC?

7voto

Steve Guidi Puntos 8831

Advertencia: Esta respuesta supone que la pregunta se refiere a la interpretación de los valores p y los IC con el método bootstrap. Una comparación entre un valor p tradicional (no estratificado) y un IC estratificado sería una cuestión diferente.

Con una prueba t tradicional (no con bootstrap), el IC 95% y la posición del valor p en relación con el límite de significación de 0,05 siempre le dirán lo mismo. Esto se debe a que ambos se basan en la misma información: la distribución t para sus grados de libertad y la media y el error estándar observados en su muestra (o la diferencia entre las medias y el error estándar, en el caso de una prueba t de dos muestras). Si su IC no se solapa con 0, entonces su valor p será necesariamente < 0,05 --- a menos que, por supuesto, haya un fallo en el software o un error del usuario en la implementación o interpretación de la prueba.

Con una prueba t con bootstrap, el IC y el valor p se calculan directamente a partir de la distribución empírica generada por el bootstrap: el valor p es simplemente el porcentaje de diferencias de grupo con bootstrap que son más extremas que la diferencia original observada; el IC del 95% es el 95% medio de las diferencias de grupo con bootstrap. No es imposible que el valor p y el IC no coincidan en cuanto a la significación en una prueba bootstrapped.

¿Acepta o rechaza la hipótesis nula?

En el contexto de una prueba bootstrap, el valor p (en comparación con el IC) refleja más directamente el espíritu de la prueba de hipótesis, por lo que tiene más sentido basarse en ese valor para decidir si se rechaza o no el nulo en el alfa deseado (generalmente 0,05). Así que en su caso, en el que el valor p es inferior a 0,05 pero el IC del 95% contiene cero, Recomiendo rechazar la hipótesis nula .

Todo esto se salta las grandes ideas sobre lo importante que debería ser la "significación" y si las pruebas de significación de hipótesis nulas son o no una herramienta tan útil. En resumen, siempre recomiendo complementar cualquier análisis de pruebas de significación con la estimación de los tamaños del efecto (para una prueba t de dos muestras, la mejor estimación del tamaño del efecto será probablemente Cohen's d ), que puede proporcionar un contexto adicional para ayudarle a entender sus resultados.

Puesto útil relacionado: ¿Qué significa un intervalo de confianza tomado a partir de remuestreos bootstrap?

1 votos

Esta es una gran respuesta (+1), pero algún consejo sobre cómo el OP aborda si acepta o rechaza el Nulo redondearía la respuesta para la pregunta final del OP.

0 votos

@Ashe ¡Gracias! Tienes razón en que no abordé la pregunta central de frente. Voy a editar para mejorar eso.

0 votos

"para una prueba t de dos muestras, la mejor estimación del tamaño del efecto será probablemente la d de Cohen" ¿Esto es específico del bootstrapping? Porque creo que para una prueba t normal, el intervalo de confianza es el que te da la mejor información sobre el tamaño del efecto en la escala real en la que has hecho la prueba.

0voto

keldar Puntos 103

Si el valor p de la hipótesis nula es menor que 0,05, entonces el cero no debe estar contenido en el intervalo de confianza a 0,05 del parámetro que se supone que es cero en la hipótesis nula. Esto es lo mismo. Por lo tanto, hay un error o no se prueba la misma hipótesis.

EDITAR como indican correctamente las otras respuestas y el comentario de abajo, esto no es todo. Sin embargo, sigo pensando que si una prueba indica que los grupos tienen una media diferente (p < 0,005), y la otra no la rechaza (p > 0,05), probablemente las pruebas están comprobando realmente una cosa diferente.

Aunque teóricamente esta diferencia podría deberse a la asintótica (los bootstraps son aproximaciones sobre una muestra finita, otras pruebas son aproximaciones basadas en supuestos de normalidad), esa diferencia es sorprendentemente grande. Yo sostengo que es alarmantemente grande, y sin averiguar qué está pasando con eso, no deberías sacar todavía conclusiones. Por cierto, eso es exactamente lo que estás haciendo al publicar la pregunta aquí. Quizá puedas compartir las cifras y concretar un poco más esta interesante cuestión.

2 votos

No estoy de acuerdo. Un intervalo de confianza bootstrap no puede seguir los resultados de una prueba t, ya que es un tipo de procedimiento totalmente diferente (en este caso basado en la diferencia de medias de los grupos). Especialmente cuando se hace un intervalo de confianza bootstrap corregido por el sesgo y acelerado, podrían ocurrir cosas como intervalos de confianza asimétricos alrededor de la estimación original (es decir, la diferencia de medias de los grupos en este caso).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X