55 votos

¿Por qué las pruebas de hipótesis frecuencialistas se inclinan a rechazar la hipótesis nula con muestras suficientemente grandes?

Estaba leyendo este artículo sobre el factor de Bayes para un problema completamente no relacionado cuando me topé con este pasaje

La prueba de hipótesis con factores de Bayes es más robusta que la prueba de hipótesis frecuentista, ya que la forma bayesiana evita el sesgo de selección de modelos, evalúa la evidencia a favor de la hipótesis nula, incluye la incertidumbre del modelo y permite comparar modelos no anidados (aunque, por supuesto, el modelo debe tener la misma variable dependiente). Además, las pruebas de significación frecuentistas se vuelven sesgadas a favor de rechazar la hipótesis nula con un tamaño de muestra suficientemente grande. [énfasis añadido]

Ya he visto esta afirmación en El artículo de Karl Friston de 2012 en NeuroImage , donde lo llama el falacia de la inferencia clásica .

Me ha costado un poco encontrar una explicación verdaderamente pedagógica de por qué esto debe ser así. En concreto, me pregunto:

  1. por qué ocurre esto
  2. cómo protegerse de ella
  3. en su defecto, cómo detectarlo

55voto

GenericTypeTea Puntos 27689

Respuesta a la pregunta 1: Esto ocurre porque el $p$ -El valor se vuelve arbitrariamente pequeño a medida que aumenta el tamaño de la muestra en las pruebas frecuentistas de diferencia (es decir, pruebas con una hipótesis nula de no diferencia/alguna forma de igualdad) cuando una diferencia verdadera exactamente igual a cero en lugar de estar arbitrariamente cerca de cero, no es realista (véase el comentario de Nick Stauner a la OP). El $p$ -se vuelve arbitrariamente pequeño porque el error de las pruebas estadísticas frecuentistas generalmente disminuye con el tamaño de la muestra, con el resultado de que todas las diferencias son significativas a un nivel arbitrario con un tamaño de muestra suficientemente grande . Cosma Shalizi ha escribió eruditamente sobre esto .

Respuesta a la pregunta 2: Dentro de un marco de pruebas de hipótesis frecuentista, uno puede protegerse de esto mediante no hacer inferencia sólo para detectar la diferencia . Por ejemplo, se puede combinar inferencias sobre diferencia y equivalencia para no favorecer (¡o confundir!) la carga de la prueba sobre evidencia del efecto frente a pruebas de la ausencia de efecto . Las pruebas de la ausencia de un efecto provienen, por ejemplo, de

  1. dos pruebas unilaterales de equivalencia (TOST),
  2. pruebas de equivalencia uniformemente más potentes y
  3. el enfoque del intervalo de confianza para la equivalencia (es decir, si el $1-2\alpha$ El %CI de la estadística de la prueba es en el a priori -de equivalencia/relevancia, entonces se concluye la equivalencia en el $\alpha$ nivel de significación).

Lo que todos estos enfoques comparten es un a priori decisión sobre el tamaño del efecto que constituye un diferencia relevante y una hipótesis nula formulada en términos de una diferencia al menos tan grande como lo que se considera relevante.

La inferencia combinada de pruebas de diferencia y pruebas de equivalencia protege así contra el sesgo que usted describe cuando los tamaños de las muestras son grandes (tabla de dos por dos que muestra las cuatro posibilidades resultantes de las pruebas combinadas de diferencia-hipótesis nula positivista, $\text{H}_{0}^{+}$ -y la hipótesis nula de equivalencia-negativa, $\text{H}_{0}^{-}$ ):

Four possibilities from combined tests for difference and tests for equivalence

Fíjese en el cuadrante superior izquierdo: una prueba con exceso de potencia es aquella en la que se rechaza la hipótesis nula de ausencia de diferencia, pero también se rechaza la hipótesis nula de diferencia relevante, por lo que sí hay diferencia, pero se tiene a priori decidió que no le importa porque es demasiado pequeño.

Respuesta a la pregunta 3: Véase la respuesta a la pregunta 2.

35voto

Auron Puntos 2123

Las pruebas frecuentistas con muestras grandes NO muestran un sesgo hacia el rechazo de la hipótesis nula si ésta es verdadera. Si los supuestos de la prueba son válidos y la hipótesis nula es verdadera, entonces no hay más riesgo de que una muestra grande lleve a rechazar la hipótesis nula que una muestra pequeña. Si la hipótesis nula no es verdadera, seguramente nos complacerá rechazarla, por lo que el hecho de que una muestra grande rechace con más frecuencia una hipótesis nula falsa que una muestra pequeña no es un "sesgo", sino un comportamiento adecuado.

El miedo a los "experimentos superados" se basa en asumir que no es bueno rechazar la hipótesis nula cuando es casi cierta. Pero si sólo es casi cierta, ¡es realmente falsa! Rechace la hipótesis nula, pero no deje de observar (e informar claramente) el tamaño del efecto observado. Puede que sea trivial y, por tanto, no merezca la pena considerarlo seriamente, pero hay que tomar una decisión al respecto después de considerar la información procedente de fuera de la prueba de hipótesis.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X