Advertencia: Esta respuesta supone que la pregunta se refiere a la interpretación de los valores p y los IC con el método bootstrap. Una comparación entre un valor p tradicional (no estratificado) y un IC estratificado sería una cuestión diferente.
Con una prueba t tradicional (no con bootstrap), el IC 95% y la posición del valor p en relación con el límite de significación de 0,05 siempre le dirán lo mismo. Esto se debe a que ambos se basan en la misma información: la distribución t para sus grados de libertad y la media y el error estándar observados en su muestra (o la diferencia entre las medias y el error estándar, en el caso de una prueba t de dos muestras). Si su IC no se solapa con 0, entonces su valor p será necesariamente < 0,05 --- a menos que, por supuesto, haya un fallo en el software o un error del usuario en la implementación o interpretación de la prueba.
Con una prueba t con bootstrap, el IC y el valor p se calculan directamente a partir de la distribución empírica generada por el bootstrap: el valor p es simplemente el porcentaje de diferencias de grupo con bootstrap que son más extremas que la diferencia original observada; el IC del 95% es el 95% medio de las diferencias de grupo con bootstrap. No es imposible que el valor p y el IC no coincidan en cuanto a la significación en una prueba bootstrapped.
¿Acepta o rechaza la hipótesis nula?
En el contexto de una prueba bootstrap, el valor p (en comparación con el IC) refleja más directamente el espíritu de la prueba de hipótesis, por lo que tiene más sentido basarse en ese valor para decidir si se rechaza o no el nulo en el alfa deseado (generalmente 0,05). Así que en su caso, en el que el valor p es inferior a 0,05 pero el IC del 95% contiene cero, Recomiendo rechazar la hipótesis nula .
Todo esto se salta las grandes ideas sobre lo importante que debería ser la "significación" y si las pruebas de significación de hipótesis nulas son o no una herramienta tan útil. En resumen, siempre recomiendo complementar cualquier análisis de pruebas de significación con la estimación de los tamaños del efecto (para una prueba t de dos muestras, la mejor estimación del tamaño del efecto será probablemente Cohen's d ), que puede proporcionar un contexto adicional para ayudarle a entender sus resultados.
Puesto útil relacionado: ¿Qué significa un intervalo de confianza tomado a partir de remuestreos bootstrap?
1 votos
Para aclararlo, ¿realizó una prueba t con bootstrap a partir de la cual está comparando el valor p y el IC del 95%, o realizó una prueba t estándar (sin bootstrap) para obtener el valor p y sólo utilizó el bootstrap para el IC?