9 votos

Intuitivamente, ¿por qué funciona el teorema de Bayes?

No estoy buscando una demostración matemática críptica. Más bien, estoy interesado en la intuición detrás del teorema que revela la probabilidad a posteriori, dada la probabilidad previa $\times$ la verosimilitud.

1 votos

Sería útil si pudieras ser un poco más "realista" aquí y dar un ejemplo concreto en lugar de simplemente "lanzar preguntas al aire" (es decir, "¿Por qué funciona el teorema de Bayes en el siguiente caso...").

11voto

Fat Mind Puntos 826

Dibuja un diagrama de Venn para ayudarte a entender $P(A|B)=P(A\cap B)/P(B)$. Luego usa esto para relacionar las cantidades $P(A|B)$ y $P(B|A)$ algebraicamente. Vamos a discutir el primer punto.

Supongamos que tenemos un espacio muestral finito para que podamos contar el número de resultados en cada posible "evento." Para determinar $P(A|B)$, básicamente estamos preguntando cuál es la probabilidad de obtener un resultado en $A$ si seleccionamos al azar (para simplificar) un resultado en el evento $B$.

Por ejemplo, considera una colección de 100 objetos. Digamos que 64 son bolas y 36 son bloques. Supongamos además que entre las bolas, 24 son bolas rojas y 40 son bolas azules. Si $A$ es el evento de ser un objeto rojo (no sabemos cuántos bloques rojos hay, pero no importará) y $B$ es el evento de ser una bola, entonces $P(A|B)$ es la probabilidad de elegir un objeto rojo dado el hecho de que el objeto que elegiste fue una bola, o equivalentemente, de elegir una bola roja entre todas las bolas, que será igual al número de bolas rojas dividido por el número de bolas, o $P(A\cap B)/P(B)=\frac{24}{64}$.

Ahora, dado que $P(A|B)P(B)=P(A\cap B)=P(B|A)P(A)$ no debería ser difícil terminar.

0 votos

¡Gracias, esto es muy útil!

0 votos

@NLK511: También ayuda trazar el diagrama de Venn de forma rectangular, como se puede ver representado en la respuesta del usuario2023861 a continuación.

4voto

user2023861 Puntos 436

Las respuestas aquí son buenas, pero si eres como yo, aprendes mejor con ayuda visual y números reales. Tengo uno para el Teorema de Bayes usando la misma idea de prueba. Aquí está el setup:

  • Tienes una población de 100,000 personas
  • El 0.5% de esta población usa una droga
  • Tenemos una prueba que nos dice con un 99% de precisión si una persona es o no un usuario de drogas
  • Te hiciste la prueba y dio positivo para esta droga. ¿Cuáles son las probabilidades de que seas usuario con esta información?

Vamos a configurarlo en una tabla simple:

enter image description here

En las columnas, muestro los conteos de usuarios y no usuarios. Nos dicen que el 0.5% de la población de 100,000 usa esta droga, por lo que hay 500 usuarios y 99,500 no usuarios.

En las filas, muestro los conteos de resultados de la prueba. Llenaré estos valores en un momento.

He resaltado las celdas dentro de la tabla de cierta manera:

  • Las celdas verdes son resultados precisos de la prueba. Si una persona es un usuario y el resultado de la prueba es positivo, la prueba es precisa y la celda es verde. Del mismo modo, si una persona no es un usuario y el resultado de la prueba es negativo, la prueba es precisa y la celda es verde.
  • Las celdas rojas son resultados inexactos de la prueba. Si una persona es un usuario pero la prueba es negativa, esto es un falso negativo y la celda es roja. Del mismo modo, si una persona no es un usuario pero la prueba es positiva, esto es un falso positivo y la celda es roja.

Comencemos a llenar la tabla. Dado que tenemos 500 usuarios, ¿cuántos resultados positivos y negativos de la prueba tendremos en este subconjunto de la población? Nos dicen que la prueba es 99% precisa, por lo que son 495 resultados positivos y 5 falsos negativos:

enter image description here


Siguiendo el mismo proceso para los no usuarios: dado que tenemos 99,500 no usuarios, ¿cuántos resultados positivos y negativos tendremos entre este subconjunto de la población? Nuevamente, la prueba es 99% precisa, por lo que son 98,505 resultados negativos y 995 falsos positivos.

enter image description here


Es hora de analizar los resultados. Nos dicen que diste positivo en la prueba de la droga, así que ignoremos los resultados relacionados con las pruebas negativas y miremos solo la fila "Positivo" en la tabla. 1,490 personas dieron positivo en la prueba de la droga, de las cuales 495 realmente son usuarios y 995 son falsos positivos. A partir de aquí, es fácil, la probabilidad de que realmente seas un usuario dado que estás en la fila "Positivo" es $\frac{495}{1490} = 33.2\%$

Convirtiendo esto en una fórmula:

$P(Usuario de drogas dado resultado positivo) = \frac{P(UsuarioDroga)*N*PrecisiónPrueba}{P(UsuarioDroga)*N*PrecisiónPrueba + P(NoUsuarioDroga)*N*(1 - PrecisiónPrueba)}$

Esta es exactamente la fórmula que calculé para obtener el 33.2%. Aquí, N es el número 100,000 que inventé. N se cancela y por lo tanto mi 100,000 es información irrelevante, pero pensé que sería útil incluirla.

Con esta tabla espero que quede claro por qué, incluso con una precisión de prueba tan alta, las probabilidades de que realmente seas usuario de drogas dado un resultado positivo en la prueba son mucho más bajas. El número de falsos positivos es lo suficientemente grande como para sesgar la intuición ingenua del resultado.

0 votos

@Canada-Area51Proposal, Gracias. ¿Por qué hiciste una edición reciente a mi respuesta? Tus ediciones no añaden ni aclara ninguna parte de ella. Después de tus ediciones, nos quedan algunas frases incómodas como En las filas, muestro recuentos de resultados de pruebas que llenaré, después explico cómo resalté las celdas de cierta manera. Hay inconsistencias en cómo te refieres a los cuatro pasos de configuración. ¿Y cuál es el punto de cambiar Turning this into a formula por Esto se puede convertir en una fórmula? Todo lo que hace es convertir la oración en pasiva. Un profesor de inglés de secundaria te reprendería por eso.

0 votos

Lo siento por cualquier error. Corregí las 2 oraciones en los bloques de citas. ¿Edité porque algunas oraciones parecen redundantes y repetidas?

4 votos

@Canadá Al final, es entre tú y el que responde, pero creo que estás sobrepasando con creces la norma de edición razonable de la respuesta de otra persona.

3voto

BruceET Puntos 7117

La distribución previa y la función de verosimilitud (basada en datos) ambas contienen información sobre un parámetro. El teorema de Bayes permite juntar estos dos tipos de información y fuentes en una distribución posterior. La información combinada de la distribución posterior se puede utilizar para hacer inferencias sobre el parámetro. Un par de ejemplos ilustran este proceso.

Prueba de detección de una enfermedad. Supongamos que nos preguntamos si una persona en particular tiene una enfermedad. La prevalencia en la población a la que pertenece el sujeto es del 2%, por lo que esto se puede considerar como nuestra información previa sobre el sujeto. P(Subj tiene enfermedad) = .02. Una prueba de detección rápida e económica, pero imperfecta, para la enfermedad está disponible. Sus características se describen en probabilidades condicionales: P(Prueba positiva | Enf) = .99, P(Prueba negativa | Sin Enf) = .97. Supongamos que nuestros datos indican que el sujeto dio positivo en la prueba.

Luego, utilizando la forma elemental del Teorema de Bayes, podemos encontrar la probabilidad posterior P(Enf | Prueba positiva) = 0.4024. Algunas personas, al centrarse en P{Prueba positiva | Enf} = .99), se sorprenden de que la probabilidad posterior sea tan pequeña.

Sin embargo, el enfoque apropiado para nuestros propósitos es que los datos (resultado positivo de la prueba) se han combinado con la probabilidad previa de 0.02 para proporcionarnos una probabilidad posterior de alrededor de 0.40. La prueba de detección es imperfecta, pero los datos obtenidos de ella han producido un cambio considerable en nuestra evaluación de la probabilidad de enfermedad del sujeto. Un sujeto con un 40% de posibilidades de tener una enfermedad grave debería ser evaluado con pruebas adicionales, quizás más extensas y costosas.

Encuesta de opinión pública. Un consultor recién contratado para una campaña política para elegir al Candidato A siente que el candidato ganará, pero no de manera abrumadora. Supongamos que su distribución previa sobre la probabilidad $\psi$ de ganar es $Beta(330, 270)$, que tiene una media de 0.55 y el 95% de su probabilidad en el intervalo $(0.51,0.59).$ Luego, una encuesta de 1000 posibles votantes seleccionados aleatoriamente muestra que 620 de ellos están a favor del Candidato A. Estos son nuestros datos y se reflejan en la función de verosimilitud binomial con núcleo $\psi^{620}(1-\psi)^{380}$.

El Teorema de Bayes fusiona la distribución previa con la función de verosimilitud que codifica los datos para dar la distribución posterior $Beta(950, 650)$, donde la multiplicación de la previa por la verosimilitud da como resultado los parámetros beta posteriores $330+620=950$ y $270+380=650.$ La distribución beta posterior tiene una media de aproximadamente 0.59 y coloca aproximadamente el 95% de su probabilidad en el intervalo $(0.57, 0.62),$ que tomamos como nuestro intervalo de probabilidad posterior para $\psi$, una perspectiva algo más optimista para el candidato que la dada por la previa.

Nuevamente, la información en la distribución previa y los datos (como se refleja en la función de verosimilitud) se han combinado para dar una distribución posterior. A grandes rasgos, es como si la distribución previa del consultor contribuyera con información equivalente a la de una encuesta de 600 posibles votantes, de los cuales 330 favorecieron al candidato.

Nota: He elegido estos dos ejemplos, por lo que las matemáticas (si decides llevarlas a cabo) son bastante simples. En algunos casos, se requiere mucho más esfuerzo computacional para encontrar y utilizar la distribución posterior. Pero la computación debe ser vista como un medio para un fin: combinar la información en la previa con la información en los datos para hacer inferencias basadas en ambos.

Agradecimientos: Los números y distribuciones en estos ejemplos son los mismos que los de los capítulos 5 y 8, respectivamente, de Suess and Trumbo (2010), Springer.

2voto

jlupolt Puntos 369

Comencemos con un ejemplo. Digamos que tienes una prueba que descubre alguna enfermedad. Incluso si una persona da positivo en la prueba, no todo está perdido, ya que la prueba puede no ser precisa.

¿Cuáles son las posibilidades de que la persona realmente tenga la enfermedad? Hay tres factores involucrados:

  1. ¿Cuáles son las posibilidades generales de contraer la enfermedad? Sería muy improbable para los habitantes de algún pequeño pueblo en Europa que nunca lo abandonaron contraer ébola, por ejemplo, independientemente de los resultados de la prueba.
  2. ¿Cuál es la precisión de la prueba: Dado que una persona tiene la enfermedad, ¿cuáles son las posibilidades de que des positivo en la prueba?
  3. ¿Cuál es la precisión de la prueba II: ¿Con qué frecuencia la prueba da resultados positivos? Si casi siempre da un resultado negativo, pero en el caso de tu paciente dio un resultado positivo, quizás deberías preocuparte.

Combinando estos factores nos brinda el teorema de Bayes: los Factores 1 y 2 aumentan la probabilidad y, por lo tanto, deben multiplicarse, mientras que el Factor 3 disminuye la probabilidad y debe dividirse:

$$P(\text{Está Enfermo} |\text{Prueba Positiva}) =\frac{P(\text{Prueba Positiva} | \text{Está Enfermo})\cdot P(\text{Está Enfermo})}{P(\text{Prueba Positiva})}$$

0 votos

Agradable explicación, ¡muchas gracias :)

2voto

LePressentiment Puntos 2053

Ayuda a desambiguar el significado de "precisión" de manera más precisa como este comentario de Reddit, en el que hay un error tipográfico: "1485" (en "de 1485 personas que dan positivo en la prueba") debería ser "1495". Lo reescribí con números enteros (en lugar de 0.5% como tasa de enfermedad).


Para entender el teorema, necesitas comprender el vocabulario. "99% preciso" realmente no nos da información sobre la enfermedad. Deberíamos usar los siguientes términos:

Sensibilidad - las probabilidades de que la prueba sea positiva si tienes la enfermedad.

Especificidad - las probabilidades de que la prueba sea negativa si no tienes la enfermedad.

Valor predictivo positivo - las probabilidades de que la prueba prediga correctamente que tienes la enfermedad, si das positivo.

Valor predictivo negativo - las probabilidades de que la prueba prediga correctamente que no tienes la enfermedad, si das negativo.

Nuestra población de 10,000 personas tiene una tasa de enfermedad del 1%. Así que $\color{springgreen}{1000}$ personas tienen la enfermedad, y $\color{forestgreen}{99,000}$ no la tienen.

Introducimos una prueba que es 98% sensible y 99% específica. Identificará correctamente a $\color{deepskyblue}{980}$ de 1000 personas con la enfermedad y a $\color{red}{98,010}$ de 99,000 personas sin la enfermedad. Incorrectamente afirmará que $\color{red}{20}$ personas ($ = 1000 - 980$) con la enfermedad no la tienen, y $\color{deepskyblue}{990}$ personas ($= 99,000 - 98,010$) sin la enfermedad la tienen.

Por lo tanto, de $\color{deepskyblue}{1970 \; (= 980 + 990)}$ personas que dan positivo en la prueba, 980 tienen la enfermedad. Por lo tanto, nuestro valor predictivo positivo es $\dfrac{\color{springgreen}{1000}}{\color{deepskyblue}{1970}} = 50.76\%$.

De $\color{red}{98,030 \; (= 98,010 + 20)}$ personas que dan negativo en la prueba, $\color{forestgreen}{99,000}$ no tienen la enfermedad. Por lo tanto, nuestro valor predictivo negativo es $\dfrac{\color{red}{98,030}}{\color{forestgreen}{99,000}} = 99.02\%$.

En este caso, esta prueba es de primera para determinar quién no tiene la enfermedad. Las $\color{deepskyblue}{1970}$ que dan positivo pueden ser sometidas a prueba para confirmar que tienen la enfermedad, mientras que aquellos que dieron negativo no necesitan más pruebas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X