28 votos

¿Por qué son tan poco interesantes las hipótesis frecuentistas estándar?

En casi cualquier libro de texto que introduzca el tema de la estadística frecuentista, las hipótesis nulas de la forma $H_0: \mu=\mu_0$ o similares (la moneda es insesgada, dos dispositivos de medición tienen un comportamiento idéntico, etc.). Las pruebas estadísticas clásicas, como la $Z$ ou $T$ se basan en el rechazo de estas hipótesis nulas.

En mi opinión, este tipo de hipótesis de igualdad carecen de interés por varias razones:

  • En la "vida real" uno siempre está interesado sólo en cierta precisión finita $\epsilon$ lo que significa que la hipótesis de interés es en realidad de la forma $H_0: |\mu-\mu_0|<\epsilon$ .
  • Se sabe a priori que la hipótesis de igualdad es errónea cuando se consideran variables continuas (¡ninguna moneda es perfectamente insesgada en la realidad!), y como corolario,
  • El hecho de que no se pueda rechazar la hipótesis nula es, por definición, temporal, y es un artefacto de la falta de datos suficientes. Con datos suficientes, cualquier tipo de hipótesis de igualdad sobre variables continuas se rechazará en un caso de uso del mundo real.

Entonces, ¿por qué se siguen utilizando estas hipótesis, tanto en los libros de texto como en las aplicaciones, mientras que es difícil encontrar fórmulas para hipótesis "reales" más interesantes*?


* por ejemplo a <a href="https://stats.stackexchange.com/questions/594474/sample-size-needed-to-show-difference-of-means-is-smaller-than-y?noredirect=1#comment1099993_594474">pregunta </a>Hace poco pregunté sobre este tipo de hipótesis

21voto

Dave Puntos 76

Hay que gatear antes de andar, y los ejemplos sencillos, como comprobar el sesgo de una moneda con una hipótesis nula de sesgo cero, sirven de ejemplo didáctico para los principiantes (que todos hemos sido alguna vez).

Pasar directamente, por ejemplo, a las pruebas de equivalencia sin ni siquiera hablar de las pruebas de significación de hipótesis nulas más sencillas parece una mala pedagogía. La mayor parte de la enseñanza de la estadística parece sufrir cuando se trata de enseñar las numerosas limitaciones de las pruebas de hipótesis. Después de todo, la OP tiene razón: básicamente siempre sabemos que la hipótesis nula es al menos un poco falsa, y probablemente estamos más interesados en algo parecido a $H_0: \vert \mu_1-\mu_2\vert<\epsilon$ . Una mejor integración de este tipo de pruebas de equivalencia en los primeros planes de estudios de estadística es una idea interesante, al menos después de que se hayan cubierto algunos aspectos básicos.

15voto

Lewian Puntos 296

Ningún modelo es verdadero. Esto significa que no sólo la hipótesis nula no es cierta, tampoco lo es la alternativa, ni algo parecido a $|\mu_1-\mu_2|<\epsilon$ . Si le interesa saber qué modelo es verdadero, en general está perdido en la estadística basada en modelos; no hay nada especialmente errónea sobre las hipótesis nulas estándar. Si la $H_0$ o cualquier modelo paramétrico es cierto es simplemente la pregunta equivocada.

Por supuesto, tú mismo puedes decidir lo que te interesa, pero a menudo encuentro informativo si los datos aportan o no alguna prueba en contra de un modelo simplista de variación aleatoria de "no pasa nada significativo". Por supuesto, todos sabemos que el no rechazo no significa que el modelo nulo sea cierto, pero si no puedes rechazarlo, no deberías afirmar que los datos muestran algo significativo. $|\mu_1-\mu_2|<\epsilon$ o bien, lo que sea $\epsilon$ .

Por supuesto, debería interesarle el tamaño de los efectos y no sólo ejecutar una prueba de hipótesis nula, de modo que incluso en caso de que no se rechace su punto nulo pueda ver si los datos siguen siendo compatibles con un efecto ridículamente bajo (es decir, calcular un intervalo de confianza y ver si algo tan pequeño como $\epsilon$ está en él, en caso de que pueda especificar un "crítico $\epsilon$ ").

Línea de base: Lo que es "interesante" es subjetivo, pero la lógica de probar un punto nulo es no la cuestión de si es cierta (no lo es, pero no está sola en eso), sino si hay alguna "señal" clara en los datos que se desvíe de ella. En caso de que la haya, hay que hacer más para saber más.

Obsérvese especialmente que una cosa es rechazar realmente la $H_0$ , pero otra muy distinta es limitarse a afirmar, en caso de que no lo rechazaras, que lo habrías rechazado con más datos. Sobre todo entonces no tendrás ni idea de en qué dirección irán las cosas. Y también, D. Mayo hizo el punto válido de que si rechazar una $H_0$ si fuera tan fácil, ¿por qué suele ser tan difícil reproducir los rechazos?

Otra consideración es que, de hecho, las pruebas no rechazar siempre una hipótesis nula falsa con un conjunto de datos suficientemente grande, porque (a) muchas pruebas frecuentistas estándar son unilaterales y con un conjunto de datos grande las cosas pueden ir por el lado equivocado, y (b) en caso de que el modelo nominal sea erróneo (que siempre lo es), en muchos casos incluso se pueden encontrar otros modelos que impliquen una baja probabilidad de rechazar la hipótesis nula para una serie de parámetros y también para grandes conjuntos de datos, por ejemplo si se utiliza una prueba t y la verdadera distribución subyacente tiene colas muy pesadas y/o produce valores atípicos, o si se tiene una correlación negativa entre las observaciones.

10voto

Richard Hardy Puntos 6099

El atractivo de estas hipótesis reside en su simplicidad y en la facilidad analítica (o sencillez) de su comprobación*.

  • En la "vida real" uno siempre está interesado sólo en cierta precisión finita $\epsilon$ lo que significa que la hipótesis de interés es en realidad de la forma $H_0: |\mu-\mu_0|<\epsilon$ .

Esto puede ser cierto para los fenómenos continuos, pero no para los discretos. Por ejemplo, en genética, un gen tiene o no un efecto sobre algo. (Supongo que puede haber ejemplos aún mejores).

El hecho de que no se pueda rechazar la hipótesis nula es, por definición, temporal, y es un artefacto de la falta de datos suficientes. Con datos suficientes, cualquier tipo de hipótesis de igualdad sobre variables continuas se rechazará en un caso de uso del mundo real.

Una vez más, esto sólo es válido para los fenómenos continuos.

Lo que sí podemos criticar es quizá la elección de ejemplos en los libros de texto. Quizá convendría poner más ejemplos de fenómenos discretos.

*Tu crítica podría dirigirse igualmente a los modelos estadísticos. Éstos suelen ser bastante sencillos (por ejemplo, los omnipresentes modelos lineales), y gran parte de su atractivo reside también en su manejabilidad y sencillez de interpretación. O incluso los modelos en general, ya que de nuevo son simplificaciones de la realidad con todos los inconvenientes (pero también ventajas) que ello conlleva.

8voto

user164061 Puntos 281

Puede considerarse un ejemplo de Todos los modelos son erróneos, pero algunos son útiles". . La comprobación de la hipótesis nula es una simplificación.


A menudo, la comprobación de la hipótesis nula no es el objetivo principal, sino más bien una herramienta para algún otro objetivo, y se utiliza como indicador de la calidad de un determinado resultado/medida.

Un experimentador quiere saber el tamaño del efecto y saber si el resultado es estadísticamente significativo.

Para esta última, la significación estadística, se puede utilizar una prueba de hipótesis nula (que responde a la pregunta de si la observación tiene una desviación estadísticamente significativa con respecto a cero).

La prueba de la hipótesis nula y los valores p se consideran ahora una herramienta un poco anticuada. Una mejor expresión de los resultados experimentales son los intervalos de confianza o los intervalos de los enfoques bayesianos.


Se sabe a priori que la hipótesis de igualdad es errónea

Sí, si tienes en cuenta las monedas.

Pero una excepción podría ser la ciencia dura, como la física o la química, donde se ponen a prueba determinadas teorías. Por ejemplo, la principio de equivalencia .

Además, si la hipótesis de igualdad es a priori errónea, ¿para qué realizar un experimento? Si algo es a priori erróneo, no se trata de demostrar que ese algo es erróneo, sino de demostrar que existe un efecto que puede medirse fácilmente. A un casino que quiere probar monedas puede no importarle la probabilidad teórica de que las monedas no sean exactamente p=0,5 justos y podrían diferir en algún valor teóricamente pequeño, les importa encontrar monedas con una diferencia mayor. Y el objetivo de la prueba de hipótesis nula es evitar falsos positivos.

Observe también los dos enfoques/filosofías que subyacen a las pruebas de hipótesis nulas

  • Fisher: Es posible que haya observado algún efecto, y como era de esperar no es cero, pero si su valor p es alto significa que su prueba tiene poca precisión y poca fuerza para diferenciar entre diferentes tamaños de efecto (incluso hasta un tamaño de efecto verdadero de cero, el efecto observado puede haber ocurrido probablemente y por lo tanto las fluctuaciones estadísticas gobiernan su observación). Así que será mejor que reúna más datos.

    El valor p y la hipótesis nula es una regla empírica para precisión indicadora de un experimento.

  • Neyman y Pearson: (de 'On the Problem of the Most Efficient Tests of Statistical Hypotheses')

    En efecto, si $x$ es una variable continua - como por ejemplo lo es la distancia angular entre dos estrellas - entonces cualquier valor de $x$ es una singularidad de probabilidad relativa igual a cero. Nos inclinamos a pensar que, en lo que se refiere a una hipótesis concreta, ninguna prueba basada en la teoría de la probabilidad puede proporcionar por sí misma ninguna prueba valiosa de la veracidad o falsedad de dicha hipótesis.

    Pero podemos contemplar la finalidad de las pruebas desde otro punto de vista. Sin esperar saber si cada hipótesis por separado es verdadera o falsa, podemos buscar reglas que rijan nuestro comportamiento con respecto a ellas, al seguirlas nos aseguramos de que, a la larga de la experiencia, no nos equivocaremos con demasiada frecuencia.

    La prueba de hipótesis es un dispositivo práctico para crear una regla de decisión . Uno de los objetivos es hacer que esta regla sea eficiente y utilizar un cociente de probabilidades con una hipótesis nula es un método para conseguirlo.


En la "vida real" uno siempre está interesado sólo en cierta precisión finita $\epsilon$ lo que significa que la hipótesis de interés es en realidad de la forma $H_0: |\mu-\mu_0|<\epsilon$ .

Esto se capta mediante la comprobación de hipótesis. Por ejemplo dos pruebas t unilaterales para la prueba de equivalencia y puede explicarse con la siguiente imagen y puede considerarse como la prueba de tres hipótesis en lugar de dos para la diferencia absoluta

$$\begin{array}{}H_0&:& \text{|difference|} = 0\\ H_\epsilon&:& 0 <\text{|difference|} \leq \epsilon\\ H_\text{effect}&:& \epsilon < \text{|difference|} \end{array}$$

A continuación se muestra un esquema de la posición del intervalo de confianza dentro de estas 3 regiones (a diferencia del esquema típico de TOST, en realidad hay 5 situaciones en lugar de 4).

plot of extended TOST

El objetivo de las observaciones y los experimentos es encontrar una respuesta a las preguntas basada en datos, excluyendo/eliminando lo que (probablemente) no sea la respuesta (Popper's falsificación ).

Las pruebas de hipótesis nulas lo hacen de forma un tanto burda y no diferencian entre las situaciones B, C, E. Sin embargo, en muchas situaciones esto no supone demasiado problema. En muchas situaciones, el problema no es probar efectos diminutos con $H_0: |\mu-\mu_0|<\epsilon$ . Se espera que el tamaño del efecto sea lo suficientemente grande y por encima de unos $\epsilon$ . En muchos casos prácticos, las pruebas $|\text{difference}| > \epsilon$ es casi igual a $|\text{difference}| > 0$ y la prueba de la hipótesis nula es una simplificación. Es en los tiempos modernos de grandes cantidades de datos cuando los tamaños del efecto de $\epsilon$ influyen en los resultados.

Antes este problema se resolvía con valores de corte arbitrarios para los valores p y con análisis de potencia. Si una prueba tenía unos valores p por debajo de cierto nivel de significación, la conclusión era que el efecto debía ser de cierto tamaño. Estos valores p siguen siendo arbitrarios, también con las pruebas de equivalencia TOST. Un investigador tiene un nivel de significación determinado y calcula el tamaño de muestra necesario para obtener una potencia determinada para un efecto determinado que el investigador quiere poder medir. El efecto de sustituir $H_0$ por algún rango dentro de $\epsilon$ está cambiando efectivamente el curva de potencia . Para un tamaño del efecto cercano a $\epsilon$ la potencia se reduce y es menos probable rechazar la hipótesis nula. Se trata, en efecto, de un simple desplazamiento de la potencia.


¿Por qué son tan poco interesantes las hipótesis frecuentistas estándar?

Se trata de ejemplos básicos sencillos que permiten realizar cálculos con facilidad. Es más fácil trabajar con ellos. Pero, de hecho, es más difícil imaginar su relevancia práctica.

4voto

Leonhard Puntos 375

(1) Cuanto más aburrida es una hipótesis nula, más interesante resulta cuando no se puede rechazar.

Por ejemplo, después de un millón de lanzamientos, seguimos sin poder distinguir la moneda perfectamente insesgada. (Después de un millón de pacientes, seguimos sin poder distinguir el tratamiento del placebo).

(2) Si tu pregunta no es de tipo test, no utilices un test para responderla.

Por ejemplo, en lugar de una pregunta de sí/no "¿está sesgada la moneda?", se quiere estimar "cómo de sesgada está la moneda". (Cuál es el impacto de una enfermedad en la esperanza de vida).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X