49 votos

¿Por qué la gente utiliza los valores p en lugar de calcular la probabilidad del modelo dados los datos?

A grandes rasgos, un valor p da una probabilidad del resultado observado de un experimento dada la hipótesis (modelo). Con esta probabilidad (valor p) queremos juzgar nuestra hipótesis (la probabilidad que tiene). ¿Pero no sería más natural calcular la probabilidad de la hipótesis dado el resultado observado?

En más detalles. Tenemos una moneda. La lanzamos 20 veces y obtenemos 14 caras (14 de 20 es lo que yo llamo "resultado del experimento"). Ahora, nuestra hipótesis es que la moneda es justa (las probabilidades de cara y cruz son iguales entre sí). Ahora calculamos el valor p, que es igual a la probabilidad de obtener 14 o más caras en 20 lanzamientos de la moneda. Bien, ahora tenemos esta probabilidad (0,058) y queremos utilizar esta probabilidad para juzgar nuestro modelo (cómo es de probable que tengamos una moneda justa).

Pero si queremos estimar la probabilidad del modelo, ¿por qué no calculamos la probabilidad del modelo dado el experimento? ¿Por qué calculamos la probabilidad del experimento dado el modelo (valor p)?

0 votos

Todavía tendría que modelar su experimento de alguna manera para poder calcular la función de probabilidad.

12 votos

Pete Dixon escribió un artículo en 1998 titulado "Why scientists value p-values" ( psychonomic.org/backissues/1631/R382.pdf ) que podría ser una lectura informativa. Una buena continuación sería el artículo de Glover y Dixon de 2004 sobre el cociente de probabilidad como métrica de sustitución ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).

3 votos

Mike, eso me parece sospechosamente una buena respuesta. ¿Qué hace en los comentarios?

6voto

StasK Puntos 19497

Definir probabilidad . Lo digo en serio. Antes de que avancemos más, tenemos que establecer los términos.

Una definición intuitiva de la probabilidad es una medida de incertidumbre. No estamos seguros de si el próximo lanzamiento de una moneda saldrá cara o cruz. Eso es incertidumbre en los datos $D$ . También tenemos la incertidumbre de si la moneda es justa o no. Eso es incertidumbre sobre el modelo $M$ ... o puede llamar a la incertidumbre sobre el estado del mundo.

Para llegar a la distribución condicional $P(M|D)$ se necesita tener la distribución conjunta $P(M,D)$ -- es decir, el conocimiento de toda la población de monedas en circulación, cuántas de ellas son falsas y cómo se comportan las monedas falsas (que puede depender en la forma en que las monedas giran y son atrapadas en el aire).

En el ejemplo particular de las monedas, esto es al menos conceptualmente posible - las cifras del gobierno son disponible en las monedas que se supone son justas (28 $\cdot$ 10 9 al año), o al menos las que tienen características estables. En cuanto a las monedas forjadas, probablemente no merezca la pena hablar de la escala de producción de menos de un millón, por lo que $10^6/28\cdot10^9$ puede haber una probabilidad de que la moneda que sacaste de la caja registradora sea injusta. Entonces tienes que idear un modelo de cómo funciona la moneda injusta... y obtener la distribución conjunta, y condicionar los datos.

En los problemas del mundo práctico con digamos las condiciones médicas y la forma en que funcionan, es posible que no se pueda llegar a ninguno de estos componentes de la distribución conjunta, y no se puede condicionar.

La modelización bayesiana proporciona a manera de simplificar los modelos y llegar a estas uniones $P(M,D)$ . Pero el diablo está en los detalles. Si dices que la moneda justa es la que tiene $p=0.5$ y luego seguir adelante y especificar un Beta tradicional a priori, y obtener el Beta conjugado posterior, entonces... ¡sorpresa, sorpresa! $P(p=0.5)=0$ para cualquiera de estas distribuciones continuas, no importa si su prioridad es $B(0.5,0.5)$ o $B(1000,1000)$ . Así que tendrías que incorporar una masa puntual en $0.5$ , dale una masa previa ( $28\cdot10^9/(28\cdot10^9 + 10^6)$ , digamos), y ver si sus datos alejan la parte posterior de esa masa puntual. Se trata de un cálculo más complicado que implica el muestreo de Metrópolis-Hastings en lugar del muestreo de Gibbs más tradicional.

Además de las dificultades para hablar de cuáles son exactamente los modelos correctos, los métodos bayesianos tienen formas limitadas de tratar la mala especificación del modelo. Si no te gustan los errores gaussianos, o no crees en la independencia de los lanzamientos de monedas (tu mano se cansa después de los primeros 10.000 lanzamientos, así que no la lanzas tan alto como las primeras 1.000 veces, lo que puede afectar a las probabilidades), todo lo que puedes hacer en el mundo bayesiano es construir un modelo más complicado: pegar priors de ruptura para mezclas normales, splines en las probabilidades a lo largo del tiempo, lo que sea. Pero no hay un análogo directo a los errores estándar del sándwich de Huber que reconozca explícitamente que el modelo puede estar mal especificado, y que esté preparado para dar cuenta de ello.

Volviendo a mi primer párrafo de nuevo, define la probabilidad. La definición formal es el trío $<\Omega,{\mathcal F},P>$ . $\Omega$ es el espacio de resultados posibles (combinaciones de modelos y datos). $\mathcal F$ es el $\sigma$ -álgebra de lo que se puede medir en ese espacio. $P$ es la medida de probabilidad/densidad adjunta a los subconjuntos $A\subset \Omega$ , $A\in\mathcal F$ -- que tienen que ser medibles para que las matemáticas de la probabilidad funcionen. En dimensiones finitas, la mayoría de los conjuntos razonables son medibles -- ver Conjuntos de Borel No voy a aburrirle con detalles. Con los espacios infinitos más interesantes (los de las curvas y las trayectorias, por ejemplo), las cosas se ponen peliagudas muy rápidamente. Si tienes un proceso aleatorio $X_t, t\in[0,1]$ en un intervalo de tiempo unitario, entonces el conjunto $\{ X_t > 0, t\in[0,0.5]\}$ es no medible, a pesar de su aparente simplicidad. (Conjuntos como $\{ X_t > 0, t\in\{t_1, t_2, \ldots, t_k\}\}$ son medibles para un número finito de $k$ y, de hecho, generar el $\sigma$ -Álgebra. Pero eso no es suficiente, aparentemente). Así que las probabilidades en dimensiones grandes pueden ser complicadas incluso a nivel de definiciones, por no hablar de los cálculos.

4voto

Hoogendijk Puntos 45

En mi opinión, los intervalos de confianza son un método mejor para expresar los resultados. Esto es especialmente cierto cuando se comparan los resultados que se incluirán en el metaanálisis y para las respuestas "no significativas". Así se evita la tergiversación demasiado común de los resultados no significativos como significativamente insignificantes. No sé en qué "campo" me sitúa eso, frecuentista o bayesiano, y francamente no me importa. Lo que digo es que es una distinción bastante importante la amplitud de un intervalo de confianza del 95%; por ejemplo, cuando se compara si la media de la presión arterial de 115 mm Hg de una serie de pruebas es diferente de la media (de control) de 120 mm Hg, hay una gran diferencia si el intervalo de confianza del 95% para la diferencia es $\pm$ 100 mm Hg o $\pm$ 10 mm Hg, porque cuando $\pm$ 100 mm Hg no hemos excluido nada práctico; una presión arterial de 20 mm Hg sólo es alcanzable varios minutos después de que el corazón se haya detenido, y una presión arterial de 220 mm Hg también es problemática. Sólo en este último caso, nuestro resultado, 110 a 130 mm Hg como IC, excluye algo pragmático.

Uno podría sorprenderse al darse cuenta de cuántos resultados publicados al promediar tres valores salvajemente diferentes no parecen ser diferentes de algún valor asumido cuando la confianza al decirlo admite todo el rango de valores posibles, y un $p$ -valor no cuenta esa historia, de tal manera que la discusión centrada en la interpretación de H0 me parece no contributiva. ¿Cuál es su opinión?

3voto

Aksakal Puntos 11351

Pero si queremos estimar la probabilidad del modelo, ¿por qué no calculamos la probabilidad del modelo dado el experimento?

Porque no sabemos cómo. Hay un número infinito de modelos posibles, y su espacio de probabilidad no está definido.

He aquí un ejemplo práctico. Supongamos que quiero pronosticar el PIB de Estados Unidos. Obtengo las series temporales y ajusto un modelo. ¿Cuál es la probabilidad de que este modelo sea verdadero?

Así pues, vamos a ajustar un modelo de paseo aleatorio a las series del PIB: $$\Delta\ln y_t=\mu+e_t$$ donde $\mu$ es la tasa de crecimiento y $e_t$ es un error aleatorio. Mi código siguiente hace precisamente eso, y también produce la previsión (rojo) y la compara con los datos históricos (azul).

enter image description here

Sin embargo, que dijo que el PIB es un proceso de paseo aleatorio? ¿Y si fuera un proceso tendencial? Entonces, vamos a ajustar la tendencia: $$\ln y_t = c t+ e_t$$ donde $c$ es la pendiente de la tendencia temporal. La previsión con un modelo de tendencia se muestra en el mismo gráfico (amarillo).

Ahora, ¿cómo calcularías la probabilidad de que mi modelo de paseo aleatorio sea cierto? Dentro de la MLE podríamos calcular la probabilidad de la deriva $\mu$ dado el conjunto de datos, pero esa no es la probabilidad. En segundo lugar, y más importante, ¿cómo calcular la probabilidad de que el modelo sea un paseo aleatorio con esta deriva sabiendo que también podría ser un modelo de tendencia? Podría ser cualquier otro número de modelos que produzcan este tipo de dinámica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X