Puede considerarse un ejemplo de Todos los modelos son erróneos, pero algunos son útiles". . La comprobación de la hipótesis nula es una simplificación.
A menudo, la comprobación de la hipótesis nula no es el objetivo principal, sino más bien una herramienta para algún otro objetivo, y se utiliza como indicador de la calidad de un determinado resultado/medida.
Un experimentador quiere saber el tamaño del efecto y saber si el resultado es estadísticamente significativo.
Para esta última, la significación estadística, se puede utilizar una prueba de hipótesis nula (que responde a la pregunta de si la observación tiene una desviación estadísticamente significativa con respecto a cero).
La prueba de la hipótesis nula y los valores p se consideran ahora una herramienta un poco anticuada. Una mejor expresión de los resultados experimentales son los intervalos de confianza o los intervalos de los enfoques bayesianos.
Se sabe a priori que la hipótesis de igualdad es errónea
Sí, si tienes en cuenta las monedas.
Pero una excepción podría ser la ciencia dura, como la física o la química, donde se ponen a prueba determinadas teorías. Por ejemplo, la principio de equivalencia .
Además, si la hipótesis de igualdad es a priori errónea, ¿para qué realizar un experimento? Si algo es a priori erróneo, no se trata de demostrar que ese algo es erróneo, sino de demostrar que existe un efecto que puede medirse fácilmente. A un casino que quiere probar monedas puede no importarle la probabilidad teórica de que las monedas no sean exactamente p=0,5 justos y podrían diferir en algún valor teóricamente pequeño, les importa encontrar monedas con una diferencia mayor. Y el objetivo de la prueba de hipótesis nula es evitar falsos positivos.
Observe también los dos enfoques/filosofías que subyacen a las pruebas de hipótesis nulas
-
Fisher: Es posible que haya observado algún efecto, y como era de esperar no es cero, pero si su valor p es alto significa que su prueba tiene poca precisión y poca fuerza para diferenciar entre diferentes tamaños de efecto (incluso hasta un tamaño de efecto verdadero de cero, el efecto observado puede haber ocurrido probablemente y por lo tanto las fluctuaciones estadísticas gobiernan su observación). Así que será mejor que reúna más datos.
El valor p y la hipótesis nula es una regla empírica para precisión indicadora de un experimento.
-
Neyman y Pearson: (de 'On the Problem of the Most Efficient Tests of Statistical Hypotheses')
En efecto, si $x$ es una variable continua - como por ejemplo lo es la distancia angular entre dos estrellas - entonces cualquier valor de $x$ es una singularidad de probabilidad relativa igual a cero. Nos inclinamos a pensar que, en lo que se refiere a una hipótesis concreta, ninguna prueba basada en la teoría de la probabilidad puede proporcionar por sí misma ninguna prueba valiosa de la veracidad o falsedad de dicha hipótesis.
Pero podemos contemplar la finalidad de las pruebas desde otro punto de vista. Sin esperar saber si cada hipótesis por separado es verdadera o falsa, podemos buscar reglas que rijan nuestro comportamiento con respecto a ellas, al seguirlas nos aseguramos de que, a la larga de la experiencia, no nos equivocaremos con demasiada frecuencia.
La prueba de hipótesis es un dispositivo práctico para crear una regla de decisión . Uno de los objetivos es hacer que esta regla sea eficiente y utilizar un cociente de probabilidades con una hipótesis nula es un método para conseguirlo.
En la "vida real" uno siempre está interesado sólo en cierta precisión finita $\epsilon$ lo que significa que la hipótesis de interés es en realidad de la forma $H_0: |\mu-\mu_0|<\epsilon$ .
Esto se capta mediante la comprobación de hipótesis. Por ejemplo dos pruebas t unilaterales para la prueba de equivalencia y puede explicarse con la siguiente imagen y puede considerarse como la prueba de tres hipótesis en lugar de dos para la diferencia absoluta
$$\begin{array}{}H_0&:& \text{|difference|} = 0\\ H_\epsilon&:& 0 <\text{|difference|} \leq \epsilon\\ H_\text{effect}&:& \epsilon < \text{|difference|} \end{array}$$
A continuación se muestra un esquema de la posición del intervalo de confianza dentro de estas 3 regiones (a diferencia del esquema típico de TOST, en realidad hay 5 situaciones en lugar de 4).
El objetivo de las observaciones y los experimentos es encontrar una respuesta a las preguntas basada en datos, excluyendo/eliminando lo que (probablemente) no sea la respuesta (Popper's falsificación ).
Las pruebas de hipótesis nulas lo hacen de forma un tanto burda y no diferencian entre las situaciones B, C, E. Sin embargo, en muchas situaciones esto no supone demasiado problema. En muchas situaciones, el problema no es probar efectos diminutos con $H_0: |\mu-\mu_0|<\epsilon$ . Se espera que el tamaño del efecto sea lo suficientemente grande y por encima de unos $\epsilon$ . En muchos casos prácticos, las pruebas $|\text{difference}| > \epsilon$ es casi igual a $|\text{difference}| > 0$ y la prueba de la hipótesis nula es una simplificación. Es en los tiempos modernos de grandes cantidades de datos cuando los tamaños del efecto de $\epsilon$ influyen en los resultados.
Antes este problema se resolvía con valores de corte arbitrarios para los valores p y con análisis de potencia. Si una prueba tenía unos valores p por debajo de cierto nivel de significación, la conclusión era que el efecto debía ser de cierto tamaño. Estos valores p siguen siendo arbitrarios, también con las pruebas de equivalencia TOST. Un investigador tiene un nivel de significación determinado y calcula el tamaño de muestra necesario para obtener una potencia determinada para un efecto determinado que el investigador quiere poder medir. El efecto de sustituir $H_0$ por algún rango dentro de $\epsilon$ está cambiando efectivamente el curva de potencia . Para un tamaño del efecto cercano a $\epsilon$ la potencia se reduce y es menos probable rechazar la hipótesis nula. Se trata, en efecto, de un simple desplazamiento de la potencia.
¿Por qué son tan poco interesantes las hipótesis frecuentistas estándar?
Se trata de ejemplos básicos sencillos que permiten realizar cálculos con facilidad. Es más fácil trabajar con ellos. Pero, de hecho, es más difícil imaginar su relevancia práctica.