13 votos

Utilizar el valor p para calcular la probabilidad de que la hipótesis sea cierta; ¿qué más se necesita?

Pregunta:

Una común malentendido de los valores p es que representan la probabilidad de que la hipótesis nula sea cierta. Sé que eso no es correcto y sé que los valores p sólo representan la probabilidad de encontrar una muestra tan extrema como ésta, dado que la hipótesis nula es cierta. Sin embargo, intuitivamente, se debería poder deducir lo primero de lo segundo. Debe de haber una razón para que nadie lo haga. ¿Qué información nos falta? que nos impide derivar la probabilidad de que la hipótesis sea cierta a partir del valor p y los datos relacionados?


Por ejemplo:

Nuestra hipótesis es "La vitamina D afecta al estado de ánimo" (siendo la hipótesis nula "ningún efecto"). Supongamos que realizamos un estudio estadístico adecuado con 1.000 personas y encontramos una correlación entre el estado de ánimo y los niveles de vitamina. En igualdad de condiciones, un valor p de 0,01 indica una mayor probabilidad de hipótesis verdadera que un valor p de 0,05. Supongamos que obtenemos un valor p de 0,05. ¿Por qué no podemos calcular la probabilidad real de que nuestra hipótesis sea cierta? ¿Qué información nos falta?


Terminología alternativa para estadísticos frecuentistas:

Si acepta la premisa de mi pregunta, puede dejar de leer aquí. Lo que sigue es para las personas que se niegan a aceptar que una hipótesis pueda tener una interpretación probabilística. Olvidemos la terminología por un momento. En su lugar...

Supongamos que apuestas con tu amigo. Tu amigo te enseña mil estudios estadísticos sobre temas no relacionados. De cada estudio sólo puedes ver el valor p, el tamaño de la muestra y la desviación típica de la muestra. Para cada estudio, tu amigo te ofrece unas cuotas para apostar a que la hipótesis presentada en el estudio es cierta. Puedes elegir entre aceptar la apuesta o no aceptarla. Después de que hayas hecho apuestas para los 1000 estudios, un oráculo asciende sobre ti y te dice qué hipótesis son correctas. Esta información le permite resolver las apuestas. Mi afirmación es que existe una estrategia óptima para este juego . En mi visión del mundo eso equivale a conocer las probabilidades de que las hipótesis sean ciertas, pero si no estamos de acuerdo en eso, no pasa nada. En ese caso podemos simplemente hablar de formas de emplear los p-valores para maximizar la expectativa de las apuestas.

0 votos

0 votos

Aunque esto podría acabar siendo más un debate que una sesión de preguntas y respuestas, la pregunta me parece muy interesante: una explicación de este aspecto de los valores p podría ser muy esclarecedora. Tengo una observación: en su definición del valor p en cursiva se refiere a una "muestra tan extrema como ésta", cuando creo que debería referirse a la test-estadístico (con todos sus supuestos), en los datos que has recogido para reflejar mejor las condiciones adicionales que se aplican a su valor p. Lamentablemente, no estoy seguro de que este añadido responda a su pregunta...

0 votos

9voto

zowens Puntos 1417

Otras respuestas se ponen filosóficas, pero no veo por qué es necesario aquí. Consideremos su ejemplo:

Nuestra hipótesis es "La vitamina D afecta al estado de ánimo" (siendo la hipótesis nula "ningún efecto"). Supongamos que realizamos un estudio estadístico adecuado con 1.000 personas y encontramos una correlación entre el estado de ánimo y los niveles de vitamina. En igualdad de condiciones, un valor p de 0,01 indica una mayor probabilidad de hipótesis verdadera que un valor p de 0,05. Supongamos que obtenemos un valor p de 0,05. ¿Por qué no podemos calcular la probabilidad real de que nuestra hipótesis sea cierta? ¿Qué información nos falta?

Para $n=1000$ , obteniendo $p=0.05$ corresponde al coeficiente de correlación de la muestra $\hat \rho=0.062$ . La hipótesis nula es $H_0: \rho=0$ . La hipótesis alternativa es $H_1: \rho\ne 0$ .

El valor p es $$p\text{-value} = P\big(|\hat\rho|\ge 0.062 \;\big|\; \rho=0\big),$$ y podemos calcularla basándonos en la distribución muestral de $\hat\rho$ bajo el nulo; no se necesita nada más.

Desea calcular $$P(H_0\;|\;\text{data})=P\big(\rho=0\;\big|\; \hat\rho= 0.062\big),$$

y para ello se necesita un montón de ingredientes adicionales. De hecho, aplicando el teorema de Bayes podemos reescribirlo de la siguiente manera:

$$\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)}{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) \cdot P(\rho=0)+P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big) \cdot (1-P(\rho=0))}.$$

Por lo tanto, para calcular la probabilidad posterior de la nula se necesitan dos cosas adicionales:

  1. Antes de que la hipótesis nula sea cierta: $P(\rho=0)$ .
  2. Suposición sobre cómo $\rho$ se distribuye si la hipótesis alternativa es cierta. Esto es necesario para calcular la $P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)$ plazo.

Si está dispuesto a asumir que $P(\rho=0)=0.5$ --- aunque personalmente no estoy seguro de por qué debería ser una suposición significativa, --- aún así tendrás que suponer la distribución de $\rho$ bajo alternativa. En este caso, podrá calcular algo llamado Factor de Bayes :

$$B=\frac{P\big( \hat\rho= 0.062 \;\big|\;\rho=0\big) }{P\big( \hat\rho= 0.062 \;\big|\;\rho\ne0\big)}.$$

Como ves, el factor Bayes no depende de la probabilidad a priori del nulo, sino que hace dependen de la probabilidad a priori de $\rho$ (con carácter alternativo).

[Tenga en cuenta que el nominador en el factor de Bayes no es el valor p, debido al signo de igualdad en lugar del de desigualdad. Por lo tanto, al calcular el factor de Bayes o $P(H_0)$ no utilizamos el valor p sí mismo en absoluto. Pero, por supuesto, estamos utilizando la distribución de muestreo $P(\hat\rho\;|\;\rho=0)$ .]

0 votos

La pregunta se refiere a "la probabilidad de que $H_0$ es cierto'', ¿crees que los Bayesianos calculan esto? ¿O calculan la ''credibilidad'' de $H_0$ es decir, ¿calculan su grado de creencia de que $H_0$ es cierta (dados los datos que observan) o calculan la probabilidad de que $H_0$ ¿es cierto?

2 votos

No entiendo la distinción que haces @fcop. En la visión bayesiana del mundo, la probabilidad es el grado de creencia ( Por ejemplo, véase aquí ).

0 votos

Entonces, ¿por qué lo llaman "credibilidad"?

8voto

alexs77 Puntos 36

¿Quid est veritas?

Puedo aceptar la respuesta de @amoeba tan fácilmente como la del cartel original. Advierto, sin embargo, que en todo mi trabajo no he encontrado un análisis bayesiano que calculara "la probabilidad de que la hipótesis nula sea cierta". Y tal conclusión atraería toda una serie de argumentos por parte de los revisores de su trabajo. Desde el punto de vista filosófico hace nos devuelve a la pregunta: "¿qué es la verdad?" Quizá la "verdad" sea irrefutable, incluso para la propia evidencia. La estadística es una herramienta de la ciencia para cuantificar la incertidumbre. Sigo manteniendo que, aunque las pruebas pueden apuntar con fuerza a una verdad, siempre existe el riesgo de un falso positivo, y el buen estadístico debe informar de este riesgo. Incluso en las pruebas de la teoría de la decisión bayesiana, se da una regla de decisión para que podamos aceptar o rechazar hipótesis basadas en factores de Bayes que son aproximadamente proporcionales a $Pr(H_0 | X)$ pero nuestra creencia nunca es $1$ o $0$ incluso cuando nuestra decisión es. La teoría de la decisión nos ofrece un medio para "seguir adelante" con un conocimiento parcial y aceptar estos riesgos.

Parte de la justificación de las pruebas estadísticas de hipótesis nulas (NHST) y la $p$ -valor es Karl Popper filosofía de la falsificación . En esto: un supuesto crítico es que la "verdad" nunca se conoce, sólo podemos reducir otras hipótesis. Una crítica interesante y válida de NHST es que se forzado hacer suposiciones ridículas, como que fumar hace no causan cáncer cuando lo que realmente le interesa es un estudio descriptivo (no inferencial): y se limita a describir cómo mucho cáncer que causa el tabaquismo.

La crítica contraria se ha aplicado a los estudios bayesianos, en los que se pueden aplicar libremente los priors: Dennis Lindley ha dicho: "Con una probabilidad a priori 0 de que la Luna esté hecha de queso, los astronautas que regresaran con los brazos llenos de queso seguirían sin convencer".

La información que falta para determinar si la hipótesis nula es cierta es, trivialmente, el conocimiento de si la hipótesis nula es cierta. Irónicamente, cuando nos centramos en la estadística descriptiva, podemos aceptar rangos tolerables de posibles efectos y concluir con cierta firmeza que una tendencia es probablemente cierto: pero estadístico pruebas no nos lleva a tales conclusiones. Incluso en la inferencia bayesiana, ningún dato conducirá a una posterior singular sin tener algunos problemas metodológicos, por lo que la incorporación de una previa no soluciona este problema.

2 votos

"Con probabilidad a priori 0 de que la luna sea de queso" pero dado que "cogito ergo sum" (y quizá ni siquiera eso) es todo lo que sabemos con certeza, ¿deberíamos dar una probabilidad a priori 0 de que la luna sea de queso? 0 y 1 deberían reservarse para lo lógicamente imposible y seguro, y eps y 1-eps para afirmaciones sobre el mundo real. El marco bayesiano está bien, proporcionado tus priores representan con exactitud tu conocimiento previo del problema (pero eso en sí mismo es un problema).

1 votos

@DikranMarsupial Tu argumento en contra de ese uso de 0/1 es precisamente lo que sugiere la cita. Ridiculiza la situación para explicar la necesidad de lo que Lindley llama El gobierno de Cromwell .

2 votos

@watarok gracias por el enlace/aclaración, parece que la mención en la respuesta es un poco engañosa ya que Lindley en realidad no critica los estudios bayesianos, sólo las priores demasiado confiadas.

6voto

Jay Querido Puntos 589

Hay dos intentos de hacer exactamente lo que has dicho en la historia de la estadística, el bayesiano y el fiducial. R. A. Fisher fundó dos escuelas de pensamiento estadístico, la escuela likelihoodista construida en torno al método de máxima verosimilitud y la fiducial, que acabó en fracaso pero que intenta hacer exactamente lo que tú quieres.

La respuesta breve a por qué fracasó es que sus distribuciones de probabilidad no acabaron integrándose en la unidad. La lección, al final, fue que la probabilidad a priori es algo necesario para crear lo que intentas crear. De hecho, vas por el camino de uno de los más grandes estadísticos de la historia y más de unos cuantos de los otros grandes murieron esperando una resolución a este problema. Si se encontrara, los métodos de hipótesis nula se equipararían a los métodos bayesianos en cuanto al tipo de problemas que podrían resolver. De hecho, superaría a Bayes, salvo en los casos en que existiera información a priori real.

También debe tener cuidado con su afirmación de que un valor p indica una mayor probabilidad para la alternativa. Eso sólo es cierto en la escuela probabilística de Fisher. No es cierto en absoluto en la escuela frecuentista de Pearson-Neyman. Su apuesta en la parte inferior parece ser una apuesta Pearson-Neyman, mientras que su valor p es incompatible, ya que proviene de la escuela de Fisher.

Para ser caritativo, voy a suponer que, para su ejemplo, no hay sesgo de publicación y, por tanto, sólo los resultados significativos aparecen en las revistas, lo que crea una alta tasa de falsos descubrimientos. Estoy tratando esto como una muestra aleatoria de todos los estudios realizados, independientemente de los resultados. Yo diría que sus apuestas no serían coherentes en el sentido clásico de la palabra de Finetti.

En el mundo de De Finetti, una apuesta es coherente si el corredor de apuestas no puede ser engañado por los jugadores para que se enfrenten a una pérdida segura. En su construcción más simple, es como la solución al problema de cortar la tarta. Una persona corta el trozo por la mitad, pero la otra elige qué trozo quiere. En esta construcción, una persona indicaría los precios de las apuestas en cada hipótesis, pero la otra persona elegiría comprar o vender la apuesta. En esencia, se podría vender al descubierto la nula. Para ser óptimas, las probabilidades tendrían que ser estrictamente justas. Los valores P no conducen a probabilidades justas.

Para ilustrarlo, consideremos el estudio de Wetzels, et al en http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf

cuya cita es: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson y Eric-Jan Wagenmakers. Statistical Evidence in Experimental Psychology: An Empirical Comparison Using 855 t Tests. Perspectivas de la ciencia psicológica. 6(3) 291-298. 2011

Se trata de una comparación directa de 855 pruebas t publicadas que utilizan factores de Bayes para eludir el problema de la distribución a priori. En el 70% de los valores p entre 0,05 y 0,01, los factores de Bayes eran, en el mejor de los casos, anecdóticos. Esto se debe a la forma matemática utilizada por los frecuentistas para resolver el problema.

Los métodos de hipótesis nula presuponen que el modelo es verdadero y, por su construcción, utilizan una distribución estadística minimax en lugar de una distribución de probabilidad. Ambos factores influyen en las diferencias entre las soluciones bayesianas y no bayesianas. Consideremos un estudio en el que el método bayesiano evalúa la probabilidad posterior de una hipótesis en un tres por ciento. Imaginemos que el valor p es inferior al cinco por ciento. Ambas cosas son ciertas, ya que el tres por ciento es menos del cinco por ciento. Sin embargo, el valor p no es una probabilidad. Sólo indica el valor máximo que podría ser la probabilidad de ver los datos, no la probabilidad real de que una hipótesis sea verdadera o falsa. De hecho, según la construcción del valor p, no se puede distinguir entre efectos debidos al azar con un nulo verdadero y un nulo falso con datos buenos.

Si examina el estudio de Wetzel, observará que es muy obvio que las probabilidades implícitas en los valores p no coinciden con las probabilidades implícitas en la medida bayesiana. Dado que la medida bayesiana es admisible y coherente, y la no bayesiana no es coherente, no es seguro suponer que los valores p corresponden a las probabilidades reales. La suposición forzada de que el nulo es válido proporciona buenas probabilidades de cobertura, pero no produce buenas probabilidades de juego.

Para entender mejor por qué, consideremos el primer axioma de Cox, según el cual la verosimilitud de una hipótesis puede describirse mediante un número real. Implícitamente, esto significa que todas las hipótesis tienen un número real ligado a su verosimilitud. En los métodos de hipótesis nula, sólo la hipótesis nula tiene un número real ligado a su verosimilitud. La hipótesis alternativa no tiene medida y, desde luego, no es el complemento de la probabilidad de observar los datos dado que la nula es cierta. De hecho, si la nula es verdadera, entonces el complemento es falso por suposición sin tener en cuenta los datos.

Si construyera las probabilidades utilizando valores p como base de su medición, entonces el bayesiano que utilizara mediciones bayesianas siempre sería capaz de obtener una ventaja sobre usted. Si el bayesiano estableciera las probabilidades, entonces la teoría de la decisión de Pearson y Neyman proporcionaría una declaración de apostar o no apostar, pero no podrían definir la cantidad a apostar. Como las probabilidades bayesianas eran justas, la ganancia esperada de utilizar el método de Pearson y Neyman sería cero.

De hecho, el estudio Wetzel es realmente lo que usted está hablando de hacer, pero con 145 apuestas menos. Si miras la tabla tres verás algunos estudios en los que el frecuentista rechaza la nula, pero el bayesiano encuentra que la probabilidad favorece la nula.

5voto

John Richardson Puntos 1197

Un análisis frecuentista no puede darte la probabilidad de que una hipótesis concreta sea cierta (o falsa) porque no tiene frecuencia a largo plazo (o es cierta o no lo es), así que no podemos asignarle una probabilidad (excepto quizá 0 o 1). Si desea conocer la probabilidad de que una hipótesis concreta sea cierta, debemos adoptar un marco bayesiano (en el que es sencillo, sólo tenemos que considerar las probabilidades a priori, etc.).

Los frecuentistas pueden encontrar estrategias óptimas para actuar sobre las pruebas de hipótesis nulas ( Neyman-Pearson framework) pero no pueden traducirlo en una probabilidad de que la hipótesis sea cierta, pero sólo debido a su definición de probabilidad.

0 votos

¿Podría ser más preciso sobre ''no puede traducir eso en una probabilidad de que la hipótesis sea cierta, sino sólo debido a su definición de una probabilidad'' porque no entiendo por qué es así?

0 votos

Los frecuentistas definen las probabilidades en términos de frecuencias a largo plazo, y la verdad de una hipótesis concreta no tiene una frecuencia a largo plazo (no trivial), por lo que un frecuentista no puede atribuirle una probabilidad. es.wikipedia.org/wiki/Probabilidad_frecuentista Por eso decimos cosas un poco crípticas como "somos capaces de rechazar la hipótesis nula al nivel X de significación" en lugar de "la probabilidad de que H0 sea falsa es p" (que es la forma de respuesta que normalmente queremos).

1 votos

@fcop las expresiones como $p(H_0=\mathrm{true})$ , $p(H_0=\mathrm{true}|D)$ o $p(D|H_0=\mathrm{true})$ no son expresiones válidas en la teoría frecuentista de la probabilidad, porque $H_0$ o cualquier hipótesis no es una variable aleatoria. Véase también esta entrada de Larry Wasserman para más detalles.

1voto

Aksakal Puntos 11351

Después de haber hecho apuestas para los 1000 estudios, un oráculo asciende sobre usted y le dice qué hipótesis son correctas. Esta información te permite resolver las apuestas. Mi afirmación es que existe una estrategia óptima para este juego.

El problema en tu configuración es el Oráculo. Normalmente no viene a resolver las apuestas. Digamos que usted apuesta a que la probabilidad de que sea cierto que fumar provoca cáncer es del 97%. ¿Cuándo vendrá el Oráculo a resolver la apuesta? Nunca. Entonces, ¿cómo probarías que tu estrategia es óptima?

Sin embargo, si se elimina un oráculo y se introducen otros agentes, como competidores y clientes, entonces habría una estrategia óptima. Aunque me temo que no se basaría en valores p. Sería más parecido al planteamiento de Gosset con funciones de pérdida. Por ejemplo, usted y sus competidores del sector agrícola apuestan por que se cumpla la previsión meteorológica. Quien elija una estrategia mejor ganará más dinero. No hay necesidad en Oracle, y las apuestas se resuelven en los mercados. Aquí no puedes basar la estrategia en valores p, tienes que contabilizar las pérdidas y los beneficios en dólares.

0 votos

¿Por qué no podemos dar por hecho que un Oráculo vendrá a saldar las apuestas inmediatamente?

0 votos

¿Por qué no podemos suponer que una vez estimada la media muestral viene Oracle y nos dice cuál es la media poblacional? Es lo mismo, si lo piensas. Es sencillamente poco realista.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X