25 votos

Ahora que he rechazado la hipótesis nula, ¿qué sigue?

He rechazado una y otra vez la hipótesis nula o he fallado en rechazarla. En el caso de no rechazarla, se concluye que no hay evidencia suficiente para rechazarla y se "sigue adelante" (es decir, se recopilan más datos, se finaliza el experimento, etc.)

Pero cuando se rechaza la hipótesis nula, proporcionando alguna evidencia para la hipótesis alternativa, realmente no se puede "demostrar" que tu hipótesis alternativa sea verdadera.

Entonces, ¿cuáles son los próximos pasos comunes una vez que se rechaza la hipótesis nula? ¿Qué herramientas/técnicas adopta uno para "analizar el problema más a fondo" y hacer que los hallazgos sean más concluyentes? ¿Cuáles son los siguientes pasos lógicos como estadístico que justifican un análisis adicional?

Por ejemplo:

$H_0: \mu_1 = \mu_0$

$H_1: \mu_1 > \mu_0$ (digamos que conocemos la dirección esperada)

Una vez que rechazamos la hipótesis nula a algún nivel de significancia, tenemos "alguna evidencia" de que la alternativa es verdadera, pero no podemos llegar a esa conclusión. Si realmente quiero llegar a esa conclusión de manera concluyente (perdona el juego de palabras doble) ¿qué debo hacer?

Nunca me había planteado esta pregunta durante mis días de pregrado, pero ahora que estoy haciendo una buena cantidad de pruebas de hipótesis, no puedo evitar preguntarme qué viene a continuación :)

2 votos

3 votos

En general, tus acciones después de tu decisión también deben ser elegidas antes de probar (¿cómo más puedes evaluar los costos de los dos tipos de errores y así elegir un $\alpha$ sensato?). Al menos, probablemente pasarías a considerar los tamaños de efecto estimados. El nulo no es sostenible (por criterios que elegiste - si eso no es suficiente para ti, ¿qué lo sería?), ¿entonces qué valores son plausibles en su lugar? por ejemplo, en tu prueba indicada, ¿qué valores para $\mu_1 - \mu_0$ serían razonablemente plausibles, dados los datos?

11voto

Krishna Thota Puntos 115

Primeramente, nota que @Nick Stauner hace algunos argumentos muy importantes con respecto al cese opcional. Si pruebas repetidamente los datos a medida que llegan las muestras, detenerte una vez que una prueba sea significativa prácticamente garantiza un resultado significativo. Sin embargo, un resultado garantizado es prácticamente inútil.

A continuación, presentaré mis mejores intentos para elaborar una posición deductivista, escéptica, falsacionista. Ciertamente no es la única, pero creo que es bastante convencional, o al menos tiene un poco de tradición.

Por lo que entiendo, Fisher originalmente introdujo pruebas de significancia como un primer paso en la exploración de datos, para establecer qué factores podrían valer la pena investigar más a fondo. A menos que la hipótesis nula que pusiste a prueba fuera en realidad la hipótesis crítica en la que dependía tu teoría favorita (lo cual es poco probable), de alguna manera, tu prueba inicial tenía más bien un carácter exploratorio. Entre los posibles pasos siguientes a la exploración veo:

  • Exploración adicional
  • Estimación de parámetros
  • Predicción y confirmación

La exploración adicional consiste en pruebas de seguimiento donde intentas inferir si alguna de las variables sobre las que tienes información modera o interactúa con tu efecto. Por ejemplo, ¿tal vez la edad de los participantes juega un papel? Ten en cuenta que tales análisis deben etiquetarse claramente como exploratorios, o básicamente equivales a mentir. Si descubres algo, primero requiere confirmación. Generalmente, siempre debes ser claro, tanto en tus pensamientos como en tus escritos, acerca de cuándo estás trabajando en una investigación exploratoria y cuándo confirmatoria.

Luego, una vez que hayas establecido que no tienes confianza en que el valor de un parámetro sea precisamente cero - una vez que hayas decidido considerar por ahora que el factor bajo prueba tiene algún influencia - un siguiente paso factible podría ser estimar con mayor precisión el valor del parámetro. Por ejemplo, por ahora, solo has excluido un valor, 0 (asumiendo una prueba de dos lados). Sin embargo, tus datos también ponen en duda muchos otros posibles valores.

Un Intervalo de Confianza/IC (100-$\alpha$)% contiene el rango de valores del parámetro no rechazados a p<$\alpha$, correspondientes a las otros muchas hipótesis posibles con respecto a tus datos, además de tu H0 inicial. Dado que tu prueba es significativa, el valor asociado con H0 no está entre ellos. Pero también se excluyen muchos valores extremadamente grandes y pequeños.

[

Hume argumentó famosamente que nunca podemos demostrar inductivamente la veracidad de una afirmación. En general, las hipótesis no triviales siempre son mucho más fáciles de falsificar que de respaldar; siendo fáciles de falsificar en principio (por ser no triviales y hacer predicciones precisas), pero aún no haber sido falsificadas es de hecho una de las virtudes más altas de una teoría.

Por lo tanto, un IC no te lleva a demostrar un valor específico. Sin embargo, reduce el conjunto de candidatos. Quizás los únicos candidatos que quedan en pie te ayuden a decidir entre dos teorías ambas incompatibles con H0. Por ejemplo, tal vez 0 está excluido, pero la teoría 1 predice un valor alrededor de 5, y la teoría 2 predice un valor alrededor de 15. Si tu IC del 95% incluye 5 pero excluye 15, ahora también has perdido confianza en la teoría 2, pero la teoría 1 sigue en juego. Ten en cuenta que esto es independiente de si tu prueba inicial fue significativa; incluso si 0 está entre los valores no rechazados, muchos valores serán rechazados. Quizás para otros investigadores, algunos de estos valores eran de interés.

](https://stats.stackexchange.com/questions/11609/clarification-on-interpreting-confidence-intervals)

Una vez que hayas especificado un poco más tu comprensión del efecto en cuestión, idealmente podrías hacer una predicción más precisa para un experimento confirmatorio de seguimiento que tenga como objetivo probar una hipótesis más precisa que puedas derivar de tu análisis actual. Admitámoslo, rechazar tu hipótesis nula estadística inicial no fue tan severo como para poner a prueba tu hipótesis original de investigación, ¿verdad? Muchas más explicaciones que la que prefieres no dependen de H0. Además, como nunca estuviste en peligro de aceptar en realidad H0, no estabas en posición de falsificar tu teoría preferida. Así que necesitas una prueba más severa. Se podría argumentar que en realidad eso es lo que quieres; no quieres demostrar tu teoría, quieres someterla a pruebas cada vez más severas, intentando falsificarla. Resistir tales esfuerzos genuinos (pero justos) para refutarla es lo mejor que una teoría puede ofrecer. Pero para una prueba severa, necesitas una teoría más precisa que "no es 0".

Ahora has aprendido múltiples hechos importantes con respecto a un estudio confirmatorio; por ejemplo, tienes una idea de la varianza y magnitud del efecto en cuestión, lo que te permite estimar el tamaño de la muestra necesario para un estudio de seguimiento a través de un análisis de poder. También puedes predecir un valor específico y asumir una región de equivalencia práctica alrededor de él. Nunca podrás probar que este valor específico es el verdadero valor; sin embargo, si el IC de un experimento de seguimiento cae completamente dentro de tu ROPE, tienes evidencia corroborante para tu teoría (y posiblemente complicaste la vida de la competencia).

10voto

Nick Stauner Puntos 8220

Generalmente, puedes seguir mejorando tu estimación de cualquier parámetro que estés probando con más datos. Detener la recolección de datos una vez que una prueba alcanza cierto grado de significancia semi-arbitrario es una buena manera de obtener malas inferencias. Que los analistas malinterpreten un resultado significativo como señal de que el trabajo está hecho es una de las muchas consecuencias no deseadas del marco de Neyman-Pearson, según el cual las personas interpretan los valores de p como motivo para rechazar o no rechazar una nula sin reservas dependiendo de en qué lado del umbral crítico se encuentren.

Sin considerar alternativas bayesianas al paradigma frecuentista (ojalá alguien más lo haga), los intervalos de confianza siguen siendo más informativos mucho más allá del punto en el que se pueda rechazar una hipótesis nula básica. Asumir que recopilar más datos haría que tu prueba básica de significancia alcance incluso mayor significancia (y no revele que tu hallazgo previo de significancia fue un falso positivo) podría hacer que esto sea inútil porque rechazarías la nula de todos modos. Sin embargo, en este escenario, tu intervalo de confianza alrededor del parámetro en cuestión seguiría reduciéndose, mejorando el grado de confianza con el que puedes describir tu población de interés de manera precisa.


Aquí tienes un ejemplo muy sencillo en r - probando la hipótesis nula de que $\mu=0$ para una variable simulada:

Prueba de t de una muestra

datos:  rnorm(99) 
t = -2.057, gl = 98, valor de p = 0.04234
hipótesis alternativa: la media verdadera no es igual a 0 
Intervalo de confianza del 95%:
 -0.377762241 -0.006780574 
estimaciones de la muestra:
 media de x 
-0.1922714

Aquí simplemente utilicé t.test(rnorm(99)), y obtuve un falso positivo (asumiendo que he establecido $\alpha=0.05$ como mi tasa de error de falso positivo aceptable). Si ignoro el intervalo de confianza, puedo afirmar que mi muestra proviene de una población con una media que difiere significativamente de cero. Técnicamente, el intervalo de confianza no refuta esto, pero sugiere que la media podría estar muy cerca de cero, o incluso más lejos de lo que creo basándome en esta muestra. Por supuesto, sé que la nula es literalmente cierta aquí, porque la media de la población rnorm es cero por defecto, pero rara vez se sabe con datos reales.

Si vuelvo a correr esto como set.seed(8);t.test(rnorm(99,1)) obtengo una media de muestra de .91, un p = 5.3E-13, y un intervalo de confianza del 95% para $\mu=[.69,1.12]$. Esta vez puedo estar bastante seguro de que la nula es falsa, especialmente porque la configuré así estableciendo la media de mis datos simulados en 1.

Aún así, si es importante saber cuán diferente de cero es; tal vez una media de .8 estaría demasiado cerca de cero como para que la diferencia importe. Puedo ver que no tengo suficientes datos para descartar la posibilidad de que $\mu=.8$ tanto desde mi intervalo de confianza como desde una prueba de t con mu=.8, que da un p = .33. Sin embargo, mi media de muestra es lo suficientemente alta como para parecer significativamente diferente de cero según este umbral de .8; recolectar más datos puede ayudar a mejorar mi confianza en que la diferencia sea al menos de este tamaño, y no simplemente ligeramente mayor que cero.

Dado que estoy "recolectando datos" mediante simulación, puedo ser un poco irrealista y aumentar mi tamaño de muestra en un orden de magnitud. Al ejecutar set.seed(8);t.test(rnorm(999,1),mu=.8) revela que más datos siguen siendo útiles después de rechazar la hipótesis nula de $\mu=0$ en este escenario, porque ahora puedo rechazar una nula de $\mu=.8$ con mi muestra más grande. El intervalo de confianza de $\mu=[.90,1.02]$ incluso sugiere que podría haber rechazado hipótesis nulas de hasta $\mu=.89$ si hubiera planeado hacerlo inicialmente.

No puedo revisar mi hipótesis nula después del hecho, pero sin recolectar nuevos datos para probar una hipótesis aún más fuerte después de este resultado, puedo decir con un 95% de confianza que replicar mi "estudio" me permitiría rechazar un $H_0:\mu=.9$. Nuevamente, simplemente porque puedo simular esto fácilmente, volveré a ejecutar el código como set.seed(9);t.test(rnorm(999,1),mu=.9): al hacerlo, demuestro que mi confianza no fue infundada.

Probar hipótesis nulas cada vez más estrictas, o mejor aún, simplemente enfocarte en reducir tus intervalos de confianza es solo una forma de proceder. Por supuesto, la mayoría de los estudios que rechazan hipótesis nulas sientan las bases para otros estudios que se construyen sobre la hipótesis alternativa. Por ejemplo, si estuviera probando una hipótesis alternativa de que una correlación es mayor que cero, podría probar mediadores o moderadores en un estudio de seguimiento próximo... y de paso, definitivamente querría asegurarme de poder replicar el resultado original.


Otro enfoque a considerar es la prueba de equivalencia. Si deseas concluir que un parámetro se encuentra dentro de un cierto rango de valores posibles, no simplemente diferente de un único valor, puedes especificar ese rango de valores en el que deseas que el parámetro esté según tu hipótesis alternativa convencional y probarlo contra un conjunto de hipótesis nulas diferentes que juntas representan la posibilidad de que el parámetro se encuentre fuera de ese rango. Esta última posibilidad puede ser la más similar a lo que tenías en mente cuando escribiste:

Tenemos "algunas pruebas" de que la hipótesis alternativa es verdadera, pero no podemos sacar esa conclusión. Si realmente quiero sacar esa conclusión de manera concluyente...

Aquí tienes un ejemplo utilizando datos similares a los anteriores (usando set.seed(8), rnorm(99) es igual a rnorm(99,1)-1, por lo que la media muestral es -.09). Digamos que quiero probar la hipótesis nula de dos pruebas de t unilaterales que simultáneamente postulan que la media muestral no se encuentra entre -.2 y .2. Esto corresponde vagamente a la premisa del ejemplo anterior, según la cual quería probar si $\mu=.8$. La diferencia es que he desplazado mis datos hacia abajo en 1, y ahora voy a realizar dos pruebas unilaterales de la hipótesis alternativa de que $-.2\le\mu\le.2$. Así es como se ve:

require(equivalence);set.seed(8);tost(rnorm(99),epsilon=.2)

tost establece el nivel de confianza del intervalo en 90%, por lo que el intervalo de confianza alrededor de la media muestral de -.09 es $\mu=[-.27,.09]$, y p = .17. Sin embargo, al ejecutar esto nuevamente con rnorm(999) (y la misma semilla) reduce el intervalo de confianza del 90% a $\mu=[-.09,.01]$, que está dentro del rango de equivalencia especificado en la hipótesis nula con p = 4.55E-07.

Sigo pensando que el intervalo de confianza es más interesante que el resultado de la prueba de equivalencia. Representa lo que los datos sugieren que es la media de la población de manera más específica que la hipótesis alternativa, y sugiere que puedo estar razonablemente seguro de que se encuentra dentro de un intervalo aún más pequeño de lo que he especificado en la hipótesis alternativa. Para demostrarlo, abusaré una vez más de mis poderes irrealistas de simulación y "replicaré" usando set.seed(7);tost(rnorm(999),epsilon=.09345092): efectivamente, p = .002.

0 votos

¡Ilustrativo! ¿Podrías mostrar un ejemplo rápido y sucio de la última parte donde hablas sobre pruebas de equivalencia? Sería realmente útil ver a un alto nivel cómo podría ser aplicable.

0 votos

@PhD: listo. Es más "rápido y sucio" que "a un nivel alto", creo. Soy nuevo en las pruebas de equivalencia, y como verás, no estoy exactamente convencido de ello.

6voto

Sean Hanley Puntos 2428

La idea de que no se puede probar una proposición científica positiva, sino solo refutar una, es un principio del falsacionismo de Popper. Estoy de acuerdo en que no se puede probar que un efecto sea exactamente igual a un valor dado (cf., mi respuesta aquí: ¿Por qué los estadísticos dicen que un resultado no significativo significa "no puedes rechazar la nula" en lugar de aceptar la hipótesis nula?). ¿Y qué?

Las personas (al menos yo) se quejan mucho sobre las pruebas de hipótesis. Esto se debe a que los valores de $p$ son comúnmente malinterpretados y las pruebas de hipótesis se utilizan para tareas que lógicamente no pueden llevar a cabo. Por ejemplo, las pruebas de hipótesis no deben utilizarse para generar hipótesis o seleccionar variables. Además, con datos observacionales esencialmente todas las hipótesis nulas 'nulas' deben ser falsas, por lo que probarlas carece de sentido. Sin embargo, los científicos a menudo tienen hipótesis a priori sugeridas por teorías actuales que desean probar, y en un experimento real una hipótesis nula nula podría ser verdadera, por lo que probarla es perfectamente razonable. Por lo general, los investigadores tienen alguna razón para sospechar que la hipótesis nula podría ser falsa, por lo que un resultado significativo en conjunto con un experimento sólido es una información válida.

Siempre puedes formar intervalos de confianza para tener una imagen más clara de la precisión de tu estimación y seguir recopilando más datos para aumentar su precisión. Sin embargo, en términos económicos, habrá rendimientos decrecientes. En algún momento, simplemente no creerás que la hipótesis nula proporcione una explicación razonable del fenómeno en estudio. En tal caso, ¿por qué molestarse?

Si hay otros en tu campo que aún no están convencidos, pero lo estarían con más (del mismo) datos, entonces podrías continuar, pero esta parece ser una situación poco común. Me parece más probable que los escépticos tengan otras preocupaciones sustantivas sobre si esa línea de investigación es lo suficientemente informativa sobre la pregunta subyacente. Por lo tanto, debes determinar la naturaleza de esas preocupaciones y, si crees que merecen el trabajo, buscar diferentes datos que aborden de manera más adecuada los problemas en cuestión. Por ejemplo, podrías intentar replicar el hallazgo usando una medida diferente, en un entorno diferente y/o con diferentes condiciones de control.

Por otro lado, todos (más o menos) pueden estar satisfechos con tus datos y conclusiones (¡felicidades!). En tales circunstancias felices, hay dos direcciones que podrías seguir para avanzar en tu programa de investigación:

  1. Un enfoque reduccionista buscaría comprender los mecanismos que producen el efecto que has establecido. En términos estadísticos, a menudo buscarías mediadores y/o un refinamiento de el patrón de fuerzas causales que conectan las variables que has demostrado estar relacionadas.

  2. También podrías moverte en la dirección opuesta al tratar de integrar tus hallazgos en un patrón más amplio. Esto es una especie de pensamiento sistémico. G.H. Hardy una vez definió la elegancia de una teoría como el rango de fenómenos que podría explicar en conjunto con la facilidad y magnitud del cambio epistémico que inducía. Por supuesto, es posible que no tengas tanta suerte de que el fenómeno que has establecido sea tan profundo, sin embargo, aún así puede ser parte de algo más grande que sí mismo. Establecer un vínculo entre $B$ y $C$ que permita ver que $A$ unifica fenómenos dispares puede ser igual de importante para el proceso y tan importante un momento cristalizador como el descubrimiento de $A

Resumen: Si tienes suficiente evidencia para tus propósitos de que la hipótesis nula es falsa, averigua qué otras preguntas motivadas teóricamente podrías intentar responder y sigue adelante.

0voto

oddfellow Puntos 1091

Una cosa que me gustaría agregar es que tu pregunta me recuerda a mi yo más joven: deseaba desesperadamente demostrar mi hipótesis porque no sabía cómo escribir "la hipótesis estaba equivocada" de una manera que ayudara a mejorar el trabajo que estaba escribiendo. Pero luego me di cuenta de que el "maldita sea mi hipótesis absolutamente encantadora no se puede demostrar" también tiene valor científico: 1. Piensa en POR QUÉ tu hipótesis no tiene fundamento. ¿Es algún problema con los datos, o probablemente algo con la hipótesis misma? 2. ¿Cuáles son las consecuencias para la investigación anterior?

Como ejemplo: escribí mi tesis de maestría sobre conflictos étnicos utilizando un conjunto de datos entonces nuevo que era más grande que los conjuntos de datos anteriores. Probé varias hipótesis disputadas como "el petróleo alimenta el conflicto étnico" o "las regiones montañosas son más propensas a experimentar conflictos". No pude demostrar que el petróleo alimenta el conflicto étnico, pero escribí dos páginas sobre cómo la calidad del conjunto de datos de petróleo disponible impactó en el análisis (el conjunto de datos en sí es una serie temporal, el conjunto de datos de pozos petroleros no lo es). La hipótesis de "las montañas causan conflictos" también fue un fracaso, pero uno fructífero: investigaciones anteriores analizaron esta hipótesis con datos a nivel de país (por ejemplo, la altura media del país o algo así), mientras que yo lo hice a nivel de grupos étnicos, así que dediqué mucho papel a discutir las diferencias y por qué mi análisis era mejor que otros investigaciones famosas...

Ten en cuenta: refutar una hipótesis no es un fracaso, sino un resultado tan bueno como una hipótesis probada.

0 votos

Las hipótesis que mencionas no son hipótesis nulas (convencionales). Creo que puede que hayas pasado por alto el punto de la publicación original.

0voto

Claude Puntos 29

Hay un método para combinar probabilidades entre estudios descrito aquí. No debes aplicar la fórmula a ciegas sin considerar el patrón de resultados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X