1 No significan lo que la gente cree que significan
¿Estoy en lo cierto al afirmar que no se trata de un valor p (que es la probabilidad de ver éste o más valores extremos de una estadística de prueba)? ¿Es un procedimiento correcto para una prueba estadística? Tengo la corazonada de que es una situación incorrecta para aplicar pruebas de hipótesis, pero no puedo responder formalmente por qué.
Se podría argumentar que, técnicamente hablando, se trata de un valor p. Pero es un valor p bastante insignificante. Hay dos maneras de verlo como un valor p sin sentido
-
Neyman y Pearson sugieren que, para calcular el valor p, se elija la región en la que la razón de verosimilitud (entre la hipótesis nula y la hipótesis alternativa) sea la más alta. Se consideran "extremas" las observaciones en las que una desviación de la hipótesis nula significaría más probabilidad de hacer esa observación extrema.
No ocurre lo mismo con el ejemplo del ciudadano estadounidense. Si la hipótesis nula "Robert es ciudadano estadounidense" es falsa, la observación "Robert es senador estadounidense" no es en absoluto más probable. Por tanto, desde el punto de vista del enfoque de Neyman y Pearson para la comprobación de hipótesis, éste es un tipo de cálculo muy malo para un valor p.
-
Desde el punto de vista de El enfoque de Fisher En las pruebas de hipótesis, se mide un efecto y el valor p sirve para cuantificar la significación estadística. Es útil como expresión de la precisión de un experimento.
El valor p cuantifica la calidad/precisión del experimento en la cuantificación de la desviación. Desde el punto de vista estadístico, siempre se producirán efectos en cierta medida debido a fluctuaciones aleatorias en las mediciones. Se considera que una observación es estadísticamente significativa cuando se trata de una fluctuación de un tamaño suficientemente grande como para que tenga una baja probabilidad de que observemos un efecto aparente cuando en realidad no lo hay (cuando la hipótesis nula es cierta). Los experimentos que tienen una alta probabilidad de que observemos un efecto cuando en realidad no lo hay no son muy útiles. Para expresar esta probabilidad se utilizan los valores p.
Al notificar los valores p, los investigadores pueden demostrar que sus experimentos tienen un ruido lo suficientemente pequeño y un tamaño de muestra lo suficientemente grande como para que los efectos observados sean estadísticamente significativos (es poco probable que sean sólo ruido).
Los valores p de Fisher son una expresión del ruido y las fluctuaciones aleatorias, son una especie de expresión de la relación señal/ruido. El consejo es rechazar una hipótesis sólo cuando un efecto es suficientemente grande en comparación con el nivel de ruido.
Aunque no exista una hipótesis alternativa desde el punto de vista de Fisher, cuando expresamos un valor p lo hacemos para medir algún efecto como desviación respecto a una hipótesis nula (sin efecto). Debe haber algún sentido de dirección que puede considerarse un efecto o un desviación .
En el caso del experimento con la ciudadanía estadounidense, la medida de "Robert es senador de EE.UU." no tiene nada que ver con la medida de unos efecto o una desviación de la hipótesis nula. Expresar un valor p para ello carece de sentido.
El ejemplo con la ciudadanía estadounidense puede ser un poco raro y erróneo. Sin embargo, no pretende ser correcto. Se trata de demostrar que un simple valor p no es muy significativo ni correcto. Lo que tenemos que tener en cuenta también es la potencia de una prueba (y eso falta en el ejemplo de la ciudadanía estadounidense). Un valor p bajo puede estar bien, pero ¿y si el valor p fuera igual de bajo, o incluso más bajo, para una explicación alternativa? Si la prueba de hipótesis es mala, podríamos "rechazar una hipótesis" basándonos en un valor p (cutre) bajo cuando, en realidad, ninguna hipótesis alternativa es más adecuada.
Ejemplo 1: Supongamos que tienes dos tarros, uno con un 50% de monedas de oro y un 50% de monedas de plata, y el otro con un 75% de monedas de oro y un 25% de monedas de plata. Sacas 10 monedas de un tarro y todas son de plata, ¿qué tarro tenemos? Podríamos decir que las probabilidades a priori eran de 1:1 y las probabilidades a posteriori son de 1:1024. Podemos decir que es muy probable que el tarro sea el que tiene 50:50 oro:plata, pero ambas hipótesis son improbables cuando observamos 10 monedas de plata y quizá deberíamos desconfiar de nuestro modelo.
Ejemplo 2: Supongamos que tenemos datos distribuidos por una curva cuadrática y = a + c x^2. Pero los ajustas con una línea recta lineal y = a + b x. Cuando ajustamos un modelo encontramos que el valor p es extremadamente bajo para una pendiente cero (sin efecto) ya que los datos no coinciden con una línea plana (ya que siguen una curva cuadrática). Pero, ¿significa eso que debemos rechazar la hipótesis de que el coeficiente b es cero? La discrepancia, el valor p bajo, no se debe a que la hipótesis nula sea falsa, sino a que todo nuestro modelo es falso (esa es la conclusión real cuando el valor p es bajo, la hipótesis nula y/o el modelo estadístico son falsos).
2 Se basan en supuestos ocultos
Parece que no, pero la pregunta es: ¿podemos decir que las pruebas no paramétricas también se basan en algunas distribuciones estadísticas regulares? No sólo tienen supuestos, sino que, técnicamente, sus estadísticos también siguen algunas distribuciones
El objetivo de las pruebas no paramétricas es no hacer suposiciones sobre los datos. Pero la estadística que calculamos puede seguir alguna distribución.
Ejemplo: Nos preguntamos si una muestra es mayor que otra. Digamos que las muestras están emparejadas. Entonces, sin saber nada de la distribución, podemos contar cuál de los pares es mayor. Independientemente de la distribución de la población de la que se ha tomado la muestra, este estadístico de signos seguirá una distribución binomial.
Por tanto, lo importante de las pruebas no paramétricas no es que la estadística que se calcula no tenga distribución, sino que la distribución de la estadística es independiente de la distribución de los datos.
El punto de este "Se basan en suposiciones ocultas" es correcto. Sin embargo, es un poco duro y esboza los supuestos en un sentido limitado (como si los supuestos fueran solo simplificaciones para facilitar los cálculos).
De hecho, muchos modelos son simplificaciones. Pero yo diría que las distribuciones paramétricas siguen siendo útiles, incluso cuando hoy en día tenemos mucha más capacidad de cálculo y las simplificaciones no son necesarias. La razón es que las distribuciones paramétricas son no siempre simplificaciones.
-
Por un lado: El bootstrapping u otras simulaciones pueden acercarse al mismo resultado que un cálculo, y cuando el cálculo hace suposiciones, aproximaciones y simplificaciones entonces el bootstrapping puede incluso hacerlo mejor.
-
Por otro lado: La distribución paramétrica, si es cierta, te da una información que el bootstrapping no te puede dar. Cuando sólo se dispone de una pequeña cantidad de datos, no se puede obtener una estimación adecuada de los valores p o de los intervalos de confianza. Con las distribuciones paramétricas puedes llenar ese vacío.
Ejemplo: si tiene diez muestras de una distribución, puede estimar el cuantil en múltiplos del 10%, pero no podrá estimar cuantiles más pequeños. Si usted sabe que la distribución puede ser aproximada por alguna distribución (basado en la teoría y el conocimiento previo tales suposiciones podrían no ser malas) entonces usted puede utilizar un ajuste con la distribución paramétrica para interpolar y extrapolar las diez muestras a otros cuantiles.
Ejemplo 2: La representación de las pruebas paramétricas como útiles únicamente para facilitar los cálculos es un argumento de hombre de paja. No es cierto porque dista mucho de ser la única razón. La principal razón por la que la gente utiliza pruebas paramétricas es porque son más potentes. Compare, por ejemplo, la prueba paramétrica t con la prueba no paramétrica U de Mann-Whitney. La elección de la primera no se debe a que el cálculo sea más sencillo, sino a que puede ser más potente.
3 Desvían la atención de las cuestiones reales
¿Podemos decir, basándonos en los intervalos de confianza, cuál es el valor esperado? ¿Es en esta situación una decisión clara? Siempre he pensado que los intervalos de confianza no son necesariamente simétricos, pero aquí he empezado a dudar.
No, los intervalos de confianza no proporcionan información completa. En su lugar, debe calcular alguna función de coste que cuantifique todas las consideraciones de la decisión (lo que requiere la distribución completa).
Pero los intervalos de confianza pueden ser una indicación razonable. El paso de una estimación puntual única a un intervalo es una gran diferencia y añade toda una nueva dimensión a la representación.
Tu crítica aquí es también exactamente el punto del autor del blogpost. Usted critica que los intervalos de confianza no proporcionan información completa. Pero las medias 0,08 para la acción A y 0,001 para la acción B tienen incluso menos información que los intervalos de confianza, y eso es lo que señala el autor.
Este tercer punto es más una cuestión de estimación puntual frente a estimación por intervalos. Quizá los p-valores promuevan el uso de estimaciones puntuales, pero es un poco exagerado utilizarlo como crítica contra los p-valores. El ejemplo ni siquiera es un caso que trate sobre p-valores y sí sobre una posterior bayesiana para dos situaciones.