49 votos

¿Por qué la gente utiliza los valores p en lugar de calcular la probabilidad del modelo dados los datos?

A grandes rasgos, un valor p da una probabilidad del resultado observado de un experimento dada la hipótesis (modelo). Con esta probabilidad (valor p) queremos juzgar nuestra hipótesis (la probabilidad que tiene). ¿Pero no sería más natural calcular la probabilidad de la hipótesis dado el resultado observado?

En más detalles. Tenemos una moneda. La lanzamos 20 veces y obtenemos 14 caras (14 de 20 es lo que yo llamo "resultado del experimento"). Ahora, nuestra hipótesis es que la moneda es justa (las probabilidades de cara y cruz son iguales entre sí). Ahora calculamos el valor p, que es igual a la probabilidad de obtener 14 o más caras en 20 lanzamientos de la moneda. Bien, ahora tenemos esta probabilidad (0,058) y queremos utilizar esta probabilidad para juzgar nuestro modelo (cómo es de probable que tengamos una moneda justa).

Pero si queremos estimar la probabilidad del modelo, ¿por qué no calculamos la probabilidad del modelo dado el experimento? ¿Por qué calculamos la probabilidad del experimento dado el modelo (valor p)?

0 votos

Todavía tendría que modelar su experimento de alguna manera para poder calcular la función de probabilidad.

12 votos

Pete Dixon escribió un artículo en 1998 titulado "Why scientists value p-values" ( psychonomic.org/backissues/1631/R382.pdf ) que podría ser una lectura informativa. Una buena continuación sería el artículo de Glover y Dixon de 2004 sobre el cociente de probabilidad como métrica de sustitución ( pbr.psychonomic-journals.org/content/11/5/791.full.pdf ).

3 votos

Mike, eso me parece sospechosamente una buena respuesta. ¿Qué hace en los comentarios?

34voto

John Richardson Puntos 1197

El cálculo de la probabilidad de que la hipótesis sea correcta no encaja bien en la definición frecuentista de una probabilidad (una frecuencia de largo plazo), que se adoptó para evitar la supuesta subjetividad de la definición bayesiana de una probabilidad. La verdad de una hipótesis particular no es una variable aleatoria, es verdadera o no lo es y no tiene una frecuencia de largo plazo. De hecho, es más natural interesarse por la probabilidad de la verdad de la hipótesis, que es, en mi opinión, la razón por la que los valores p suelen interpretarse erróneamente como la probabilidad de que la hipótesis nula sea cierta. Parte de la dificultad radica en que, a partir de la regla de Bayes, sabemos que para calcular la probabilidad posterior de que una hipótesis sea cierta, hay que empezar con una probabilidad previa de que la hipótesis sea cierta.

Un bayesiano sería calcular la probabilidad de que la hipótesis sea verdadera, dados los datos (y su creencia previa).

Esencialmente, al decidir entre los enfoques frecuentista y bayesiano se trata de elegir si la supuesta subjetividad del enfoque bayesiano es más aborrecible que el hecho de que el enfoque frecuentista generalmente no da una respuesta directa a la pregunta que realmente se quiere formular, pero hay espacio para ambos.

En el caso de preguntarse si una moneda es justa, es decir, si la probabilidad de que salga cara es igual a la de que salga cruz, también tenemos un ejemplo de una hipótesis que, en el mundo real, sabemos que es casi seguramente falsa desde el principio. Las dos caras de la moneda no son simétricas, por lo que deberíamos esperar una ligera asimetría en las probabilidades de cara y cruz, así que si la moneda "pasa" la prueba, sólo significa que no tenemos suficientes observaciones para poder concluir lo que ya sabemos que es cierto: ¡que la moneda está muy ligeramente sesgada!

4 votos

En realidad, la mayoría de las monedas están muy cerca de ser justas, y es difícil encontrar una manera físicamente plausible de sesgarlas mucho -- ver por ejemplo. stat.columbia.edu/~gelman/research/published/diceRev2.pdf

10 votos

Estar muy cerca de ser justo no es lo mismo que ser exactamente justo, que es la hipótesis nula. Estaba señalando una de las idiosincrasias de las pruebas de hipótesis, a saber, que a menudo sabemos que la hipótesis nula es falsa, pero la utilizamos de todos modos. Una prueba más práctica tendría como objetivo detectar si hay pruebas de que la moneda está significativamente sesgada, en lugar de pruebas significativas de que la moneda está sesgada.

0 votos

Por otra parte, gracias por el enlace al artículo; estoy seguro de que será útil.

13voto

Rob Wells Puntos 361

Su pregunta es un gran ejemplo de razonamiento frecuentista y es, en realidad, bastante natural. He utilizado este ejemplo en mis clases para demostrar la naturaleza de las pruebas de hipótesis. Pido a un voluntario que prediga los resultados de un lanzamiento de moneda. Sea cual sea el resultado, anoto un acierto. Hacemos esto repetidamente hasta que la clase empieza a sospechar.

Ahora, tienen un modelo nulo en la cabeza. Asumen que la moneda es justa. Dada esa suposición del 50% de aciertos cuando todo es justo, cada sucesivo acierto despierta más sospechas de que el modelo de moneda justa es incorrecto. Si aciertan un par de veces, aceptan el papel del azar. Después de 5 o 10 aciertos, la clase siempre empieza a sospechar que la probabilidad de una moneda justa es baja. Así es la naturaleza de las pruebas de hipótesis según el modelo frecuentista.

Es una representación clara e intuitiva de la visión frecuentista de las pruebas de hipótesis. Es la probabilidad de los datos observados dado que el nulo es verdadero. En realidad es bastante natural, como demuestra este sencillo experimento. Damos por sentado que el modelo es 50-50, pero a medida que aumentan las pruebas, rechazo ese modelo y sospecho que hay algo más en juego.

Así, si la probabilidad de lo que observo es baja dado el modelo que asumo (el valor p), entonces tengo cierta confianza en rechazar mi modelo asumido. Por lo tanto, un valor p es una medida útil de la evidencia contra mi modelo asumido teniendo en cuenta el papel del azar.

Un descargo de responsabilidad: tomé este ejercicio de un artículo olvidado hace tiempo en, lo que recuerdo, una de las revistas de la ASA.

0 votos

Brett, esto es interesante y un gran ejemplo. El modelo aquí me parece que la gente espera que el orden de las caras y las colas se produzca de forma aleatoria. Por ejemplo, si veo 5 cabezas seguidas, deduzco que es un ejemplo de un proceso no aleatorio. De hecho, y puede que me equivoque, la probabilidad de un coso de toin (asumiendo aleatoriedad) es 50% cara y 50% cruz, y esto es completamente independiente del resultado anterior. La cuestión es que si lanzamos una moneda 50000 veces, y las primeras 25000 fueron cara, siempre que las 25000 restantes fueran cruz, esto sigue reflejando una falta de sesgo

0 votos

@user2238: Tu última afirmación es cierta, pero sería extraordinariamente rara. De hecho, ver una racha de 5 caras en 5 lanzamientos ocurriría sólo un 3% de las veces si la moneda es justa. Siempre es posible que el nulo sea cierto y hayamos asistido a un evento raro.

11voto

Chris Puntos 4263

Como antiguo académico que se pasó a la práctica, me arriesgaré. La gente utiliza los valores p porque son útiles. No se puede ver en los ejemplos de libros de texto de lanzamiento de monedas. Seguro que no son realmente sólidos desde el punto de vista de los fundamentos, pero tal vez eso no sea tan necesario como nos gusta pensar cuando pensamos académicamente. En el mundo de los datos, estamos rodeados de un número literalmente infinito de cosas posibles que investigar a continuación. Con los cálculos del valor p todo lo que se necesita es una idea de lo que no es interesante y una heurística numérica para saber qué tipo de datos podrían ser interesantes (bueno, además de un modelo de probabilidad para lo no interesante). Entonces, individual o colectivamente, podemos analizar las cosas de forma bastante sencilla, rechazando la mayor parte de lo que no es interesante. El valor p nos permite decir "Si no le doy mucha prioridad a pensar en esto de otra manera, estos datos no me dan ninguna razón para cambiar". Estoy de acuerdo en que los valores p pueden ser malinterpretados y sobreinterpretados, pero siguen siendo una parte importante de la estadística.

8voto

Brettski Puntos 5485

Una nota al margen de las otras excelentes respuestas: en ocasiones hay veces que no lo hacemos. Por ejemplo, hasta hace muy poco, estaban prohibidos en la revista Epidemiología - ahora simplemente se "desaconsejan encarecidamente" y el consejo editorial dedicó una gran cantidad de espacio a un debate sobre ellos aquí: http://journals.lww.com/epidem/pages/collectiondetails.aspx?TopicalCollectionId=4

7voto

James Sutherland Puntos 2033

"A grandes rasgos, el valor p da una probabilidad del resultado observado de un experimento dada la hipótesis (modelo)".

pero no lo hace. Ni siquiera a grandes rasgos: esto falsea una distinción esencial.

El modelo no está especificado, como señala Raskolnikov, pero supongamos que se refiere a un modelo binomial (lanzamientos de moneda independientes, sesgo de moneda desconocido fijo). La hipótesis es la afirmación de que el parámetro relevante en este modelo, el sesgo o probabilidad de salir cara, es 0,5.

"Teniendo esta probabilidad (valor p) queremos juzgar nuestra hipótesis (cuán probable es)"

Es posible que queramos hacer este juicio, pero un valor p no nos ayudará (ni fue diseñado para hacerlo).

"¿Pero no sería más natural calcular la probabilidad de la hipótesis dado el resultado observado?"

Tal vez sí. Véase toda la discusión sobre Bayes más arriba.

"[...] Ahora calculamos el valor p, que es igual a la probabilidad de obtener 14 o más caras en 20 lanzamientos de la moneda. Bien, ahora tenemos esta probabilidad (0,058) y queremos usar esta probabilidad para juzgar nuestro modelo (cómo es de probable que tengamos una moneda justa)."

de nuestra hipótesis, suponiendo que nuestro modelo sea verdadero", pero esencialmente: sí. Los valores p grandes indican que el comportamiento de la moneda es coherente con la hipótesis de que es justa. (También suelen ser consistentes con que la hipótesis sea falsa pero esté tan cerca de ser cierta que no tengamos suficientes datos para saberlo; véase 'poder estadístico').

"Pero si queremos estimar la probabilidad del modelo, ¿por qué no calculamos la probabilidad del modelo dado el experimento? ¿Por qué calculamos la probabilidad del experimento dado el modelo (valor p)?"

En realidad, no calculamos la probabilidad de los resultados experimentales dada la hipótesis en esta configuración. Al fin y al cabo, la probabilidad es sólo de 0,176 de ver exactamente 10 cabezas cuando la hipótesis es cierta, y esa es la más valor probable. Esta no es una cantidad de interés en absoluto.

También es relevante que tampoco solemos estimar la probabilidad del modelo. Tanto las respuestas frecuentistas como las bayesianas suelen asumir que el modelo es verdadero y hacen sus inferencias sobre sus parámetros. De hecho, no todos los bayesianos sería incluso, en principio, interesarse por la probabilidad del modelo, es decir: la probabilidad de que toda la situación estuviera bien modelada por una distribución binomial. Puede que hagan mucha comprobación del modelo, pero nunca se preguntan realmente qué probabilidad tiene la binomial en el espacio de otros modelos posibles. Los bayesianos que se preocupan por los factores de Bayes están interesados, otros no tanto.

2 votos

Hmm, dos votos negativos. Si la respuesta es tan mala sería bueno tener algún comentario.

0 votos

Me ha gustado esta respuesta. A veces la gente vota negativamente las respuestas porque no son similares a las de un libro de texto y tratan de librar a todos los sitios de discusiones que contengan una mancha de sentido común o una descripción de tipo lego.

2 votos

No he votado a la baja, pero creo que un problema es que tu punto de vista no es claro.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X