Generalmente, puedes seguir mejorando tu estimación de cualquier parámetro que estés probando con más datos. Detener la recolección de datos una vez que una prueba alcanza cierto grado de significancia semi-arbitrario es una buena manera de obtener malas inferencias. Que los analistas malinterpreten un resultado significativo como señal de que el trabajo está hecho es una de las muchas consecuencias no deseadas del marco de Neyman-Pearson, según el cual las personas interpretan los valores de p como motivo para rechazar o no rechazar una nula sin reservas dependiendo de en qué lado del umbral crítico se encuentren.
Sin considerar alternativas bayesianas al paradigma frecuentista (ojalá alguien más lo haga), los intervalos de confianza siguen siendo más informativos mucho más allá del punto en el que se pueda rechazar una hipótesis nula básica. Asumir que recopilar más datos haría que tu prueba básica de significancia alcance incluso mayor significancia (y no revele que tu hallazgo previo de significancia fue un falso positivo) podría hacer que esto sea inútil porque rechazarías la nula de todos modos. Sin embargo, en este escenario, tu intervalo de confianza alrededor del parámetro en cuestión seguiría reduciéndose, mejorando el grado de confianza con el que puedes describir tu población de interés de manera precisa.
Aquí tienes un ejemplo muy sencillo en r - probando la hipótesis nula de que $\mu=0$ para una variable simulada:
Prueba de t de una muestra
datos: rnorm(99)
t = -2.057, gl = 98, valor de p = 0.04234
hipótesis alternativa: la media verdadera no es igual a 0
Intervalo de confianza del 95%:
-0.377762241 -0.006780574
estimaciones de la muestra:
media de x
-0.1922714
Aquí simplemente utilicé t.test(rnorm(99))
, y obtuve un falso positivo (asumiendo que he establecido $\alpha=0.05$ como mi tasa de error de falso positivo aceptable). Si ignoro el intervalo de confianza, puedo afirmar que mi muestra proviene de una población con una media que difiere significativamente de cero. Técnicamente, el intervalo de confianza no refuta esto, pero sugiere que la media podría estar muy cerca de cero, o incluso más lejos de lo que creo basándome en esta muestra. Por supuesto, sé que la nula es literalmente cierta aquí, porque la media de la población rnorm
es cero por defecto, pero rara vez se sabe con datos reales.
Si vuelvo a correr esto como set.seed(8);t.test(rnorm(99,1))
obtengo una media de muestra de .91, un p = 5.3E-13, y un intervalo de confianza del 95% para $\mu=[.69,1.12]$. Esta vez puedo estar bastante seguro de que la nula es falsa, especialmente porque la configuré así estableciendo la media de mis datos simulados en 1.
Aún así, si es importante saber cuán diferente de cero es; tal vez una media de .8 estaría demasiado cerca de cero como para que la diferencia importe. Puedo ver que no tengo suficientes datos para descartar la posibilidad de que $\mu=.8$ tanto desde mi intervalo de confianza como desde una prueba de t con mu=.8
, que da un p = .33. Sin embargo, mi media de muestra es lo suficientemente alta como para parecer significativamente diferente de cero según este umbral de .8; recolectar más datos puede ayudar a mejorar mi confianza en que la diferencia sea al menos de este tamaño, y no simplemente ligeramente mayor que cero.
Dado que estoy "recolectando datos" mediante simulación, puedo ser un poco irrealista y aumentar mi tamaño de muestra en un orden de magnitud. Al ejecutar set.seed(8);t.test(rnorm(999,1),mu=.8)
revela que más datos siguen siendo útiles después de rechazar la hipótesis nula de $\mu=0$ en este escenario, porque ahora puedo rechazar una nula de $\mu=.8$ con mi muestra más grande. El intervalo de confianza de $\mu=[.90,1.02]$ incluso sugiere que podría haber rechazado hipótesis nulas de hasta $\mu=.89$ si hubiera planeado hacerlo inicialmente.
No puedo revisar mi hipótesis nula después del hecho, pero sin recolectar nuevos datos para probar una hipótesis aún más fuerte después de este resultado, puedo decir con un 95% de confianza que replicar mi "estudio" me permitiría rechazar un $H_0:\mu=.9$. Nuevamente, simplemente porque puedo simular esto fácilmente, volveré a ejecutar el código como set.seed(9);t.test(rnorm(999,1),mu=.9)
: al hacerlo, demuestro que mi confianza no fue infundada.
Probar hipótesis nulas cada vez más estrictas, o mejor aún, simplemente enfocarte en reducir tus intervalos de confianza es solo una forma de proceder. Por supuesto, la mayoría de los estudios que rechazan hipótesis nulas sientan las bases para otros estudios que se construyen sobre la hipótesis alternativa. Por ejemplo, si estuviera probando una hipótesis alternativa de que una correlación es mayor que cero, podría probar mediadores o moderadores en un estudio de seguimiento próximo... y de paso, definitivamente querría asegurarme de poder replicar el resultado original.
Otro enfoque a considerar es la prueba de equivalencia. Si deseas concluir que un parámetro se encuentra dentro de un cierto rango de valores posibles, no simplemente diferente de un único valor, puedes especificar ese rango de valores en el que deseas que el parámetro esté según tu hipótesis alternativa convencional y probarlo contra un conjunto de hipótesis nulas diferentes que juntas representan la posibilidad de que el parámetro se encuentre fuera de ese rango. Esta última posibilidad puede ser la más similar a lo que tenías en mente cuando escribiste:
Tenemos "algunas pruebas" de que la hipótesis alternativa es verdadera, pero no podemos sacar esa conclusión. Si realmente quiero sacar esa conclusión de manera concluyente...
Aquí tienes un ejemplo utilizando datos similares a los anteriores (usando set.seed(8)
, rnorm(99)
es igual a rnorm(99,1)-1
, por lo que la media muestral es -.09). Digamos que quiero probar la hipótesis nula de dos pruebas de t unilaterales que simultáneamente postulan que la media muestral no se encuentra entre -.2 y .2. Esto corresponde vagamente a la premisa del ejemplo anterior, según la cual quería probar si $\mu=.8$. La diferencia es que he desplazado mis datos hacia abajo en 1, y ahora voy a realizar dos pruebas unilaterales de la hipótesis alternativa de que $-.2\le\mu\le.2$. Así es como se ve:
require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)
tost
establece el nivel de confianza del intervalo en 90%, por lo que el intervalo de confianza alrededor de la media muestral de -.09 es $\mu=[-.27,.09]$, y p = .17. Sin embargo, al ejecutar esto nuevamente con rnorm(999)
(y la misma semilla) reduce el intervalo de confianza del 90% a $\mu=[-.09,.01]$, que está dentro del rango de equivalencia especificado en la hipótesis nula con p = 4.55E-07.
Sigo pensando que el intervalo de confianza es más interesante que el resultado de la prueba de equivalencia. Representa lo que los datos sugieren que es la media de la población de manera más específica que la hipótesis alternativa, y sugiere que puedo estar razonablemente seguro de que se encuentra dentro de un intervalo aún más pequeño de lo que he especificado en la hipótesis alternativa. Para demostrarlo, abusaré una vez más de mis poderes irrealistas de simulación y "replicaré" usando set.seed(7);tost(rnorm(999),epsilon=.09345092)
: efectivamente, p = .002.
2 votos
Posiblemente de interés: ¿Por qué no es suficiente "estadísticamente significativo"?
3 votos
En general, tus acciones después de tu decisión también deben ser elegidas antes de probar (¿cómo más puedes evaluar los costos de los dos tipos de errores y así elegir un $\alpha$ sensato?). Al menos, probablemente pasarías a considerar los tamaños de efecto estimados. El nulo no es sostenible (por criterios que elegiste - si eso no es suficiente para ti, ¿qué lo sería?), ¿entonces qué valores son plausibles en su lugar? por ejemplo, en tu prueba indicada, ¿qué valores para $\mu_1 - \mu_0$ serían razonablemente plausibles, dados los datos?