65 votos

Explica el cómic xkcd jelly bean: ¿Qué lo hace divertido?

Lo veo una vez de las veinte pruebas totales que hacen, $p < 0.05$ por lo que asumen erróneamente que durante una de las veinte pruebas, el resultado es significativo ( $0.05 = 1/20$ ).

cómic xkcd jelly bean - "Significante"

  • Título: Significativo
  • Texto de la página web: "'Así que, uh, hicimos el estudio verde de nuevo y no obtuvimos ningún vínculo. Probablemente fue un ' 'INVESTIGACIÓN CONFLICTA SOBRE EL VÍNCULO ENTRE LA JALEA VERDE Y EL ACNÉ; ¡SE RECOMIENDA MÁS ESTUDIOS!'"

xkcd comic 882 - "Significant"

74voto

AdamSane Puntos 1825

El humor es algo muy personal -algunas personas lo encontrarán divertido, pero puede que no lo sea para todo el mundo- y los intentos de explicar lo que hace que algo sea divertido a menudo no consiguen transmitir lo divertido, aunque expliquen el punto subyacente. De hecho, no todos los xkcd pretenden ser realmente graciosos. Sin embargo, muchos de ellos plantean puntos importantes que invitan a la reflexión, y al menos a veces resultan divertidos. (A mí personalmente me hace gracia, pero me resulta difícil explicar con claridad qué es lo que me hace gracia exactamente. Creo que en parte es el reconocimiento de la forma en que un resultado dudoso, o incluso dudoso, se convierte en un circo mediático ( sobre lo cual ver también esto Cómic de doctorado ), y tal vez en parte el reconocimiento de la forma en que algunas investigaciones pueden hacerse realmente, aunque normalmente no de forma consciente).

Sin embargo, uno puede apreciar el punto tanto si le hace cosquillas como si no.

Se trata de hacer múltiples pruebas de hipótesis con un nivel de significación moderado, como el 5%, y luego publicar la que haya resultado significativa. Por supuesto, si se realizan 20 pruebas de este tipo cuando realmente no hay nada importante, el número esperado de esas pruebas para dar un resultado significativo es 1. Haciendo una aproximación en cabeza para $n$ pruebas a nivel de significación $\frac{1}{n}$ En cuanto a los resultados, hay aproximadamente un 37% de probabilidades de que no haya ningún resultado significativo, un 37% de probabilidades de que haya uno y un 26% de probabilidades de que haya más de uno (acabo de comprobar las respuestas exactas; son bastante aproximadas).

En el cómic, Randall representó 20 pruebas, por lo que sin duda este es su punto de vista (que se espera obtener una significativa incluso cuando no hay nada). El artículo del periódico ficticio incluso enfatiza el problema con el subtítulo "¡Sólo un 5% de posibilidades de coincidencia!". (Si la única prueba que acabó en los periódicos fue la única que se hizo, ese podría ser el caso).


Por supuesto, también está la cuestión más sutil de que un investigador individual puede comportarse de forma mucho más razonable, pero el problema de la publicidad desenfrenada de los falsos positivos todavía se produce. Digamos que estos investigadores sólo hacen 5 pruebas, cada una de ellas con un nivel del 1%, por lo que su probabilidad global de descubrir un resultado falso como ése es sólo del 5%.

Hasta aquí todo bien. Pero ahora imagina que hay 20 grupos de investigación de este tipo, cada uno probando cualquier subconjunto aleatorio de colores que crean que tienen motivos para probar. O 100 grupos de investigación... ¿qué posibilidades hay de que salga un titular como el del cómic ahora?

Así que, en términos más generales, el cómic puede estar haciendo referencia al sesgo de la publicación en general. Si sólo se anuncian los resultados significativos, no oiremos hablar de las docenas de grupos que no encontraron nada para las gominolas verdes, sino sólo del que sí lo hizo.

De hecho, ese es uno de los principales puntos que se plantean en este artículo que ha sido noticia en los últimos meses ( Por ejemplo, aquí aunque se trata de un artículo de 2005).

A respuesta a ese artículo destaca la necesidad de replicar. Hay que tener en cuenta que si hubiera varias réplicas del estudio que se publicó, el resultado "Gominolas verdes vinculadas al acné" sería muy poco probable que se mantuviera.

(Y, de hecho, el texto que aparece en el cómic hace una ingeniosa referencia al mismo punto).

12voto

Tealc Puntos 191

El efecto de la comprobación de hipótesis en la decisión de publicar se describió hace más de cincuenta años en el artículo de la JASA de 1959 Decisiones de publicación y sus posibles efectos en las inferencias extraídas de las pruebas de significación, o viceversa (perdón por el muro de pago).

Resumen del documento El documento señala la evidencia de que los resultados publicados de los trabajos científicos no son una muestra representativa de los resultados de todos los estudios. El autor revisó los trabajos publicados en cuatro importantes revistas de psicología. 97% de los artículos revisados informaron de resultados estadísticamente significativos para sus principales hipótesis científicas.

El autor avanza una posible explicación para esta observación: que investigación que arroja resultados no significativos no se publica. Dicha investigación que no es conocida por otros investigadores puede repetirse de forma independiente hasta que, por casualidad, se produzca un resultado significativo (un error de tipo 1) y se publica. Esto abre la puerta a la posibilidad de que la literatura científica publicada incluya una sobre-representación de resultados incorrectos resultantes de errores de Tipo 1 en de las pruebas de significación estadística - exactamente el escenario que el cómic original de XKCD se burlaba.

Esta observación general ha sido verificada y redescubierta posteriormente muchas veces en los años transcurridos. Creo que el artículo de la JASA de 1959 fue el primero en avanzar la hipótesis. El autor de ese artículo fue mi supervisor de doctorado. Actualizamos su artículo de 1959 35 años después y llegamos las mismas conclusiones. Revisión de las decisiones de publicación: El efecto del resultado de las pruebas resultado de las pruebas estadísticas en la decisión de publicar y viceversa. American Statistician, Vol 49, No 1, Feb 1995

-2voto

cHao Puntos 378

Lo que la gente pasa por alto es que el valor p real para el caso de la gominola verde no es de 0,05 sino de alrededor de 0,64. Sólo el valor p nominal es de 0,05. Hay una diferencia entre los valores p reales y los pretendidos. La probabilidad de encontrar 1 de cada 20 que alcancen el nivel nominal incluso si todos los nulos son verdaderos NO es de .05, sino de .64. Por otro lado, si valoras la evidencia mirando las probabilidades comparativas -el punto de vista más popular aparte del error estadístico (dentro del cual residen los valores p) dirás que hay evidencia para H: las gominolas verdes están genuinamente correlacionadas con el acné. Eso es porque P(x;ningún efecto) < P(x; H). El lado izquierdo es < 0,05, mientras que el lado derecho es bastante alto: si las gominolas verdes causaran acné, entonces encontrar la asociación observada sería probable. Las probabilidades por sí solas no recogen las probabilidades de error porque condicionan los datos reales obtenidos. No hay ninguna diferencia en la valoración que si sólo hubiera habido esta prueba de las gominolas verdes y el acné. Así que, aunque esta viñeta suele considerarse una burla de los valores p, lo que tiene de gracioso demuestra por qué debemos considerar la probabilidad de error global (como hacen los valores p no fingidos) y no sólo las probabilidades. La inferencia bayesiana también está condicionada por el resultado, ignorando las probabilidades de error. La única forma de evitar encontrar pruebas para H, para un bayesiano sería tener un prior bajo en H. Pero ajustaríamos el valor p sin importar el tema, y sin depender de los priores, debido al procedimiento de caza utilizado para encontrar la hipótesis a probar. Incluso si la H que se cazó era creíble, sigue siendo una prueba pésima. Errorstatistics.com

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X