32 votos

¿Cuál es la probabilidad de que esta persona sea mujer?

Hay una persona detrás de una cortina - no sé si la persona es femenina o masculina.

Sé que la persona tiene el pelo largo, y que el 90% de las personas con pelo largo son mujeres

Sé que la persona tiene un tipo de sangre raro, AX3, y que el 80% de las personas con este tipo de sangre son mujeres.

¿Cuál es la probabilidad de que la persona sea mujer?

NOTA: esta formulación original se ha ampliado con dos supuestos más: 1. El grupo sanguíneo y la longitud del cabello son independientes 2. La proporción hombre:mujer en la población en general es 50:50

(El escenario específico aquí no es tan relevante - más bien, tengo un proyecto urgente que requiere que me ponga a pensar en el enfoque correcto para responder a esto. Mi intuición es que se trata de una cuestión de simple probabilidad, con una respuesta definitiva sencilla, en lugar de algo con múltiples respuestas discutibles según diferentes teorías estadísticas).

35voto

jldugger Puntos 7490

A muchas personas les resulta útil pensar en términos de "población", subgrupos dentro de ella y proporciones (en lugar de probabilidades). Esto se presta al razonamiento visual.

Explicaré las cifras en detalle, pero la intención es que una rápida comparación de las dos cifras indique de forma inmediata y convincente cómo y por qué no se puede dar una respuesta concreta a la pregunta. Un examen un poco más largo sugerirá qué información adicional sería útil para determinar una respuesta o, al menos, obtener límites en las respuestas.

Venn diagram

Leyenda

Sombreado cruzado : mujer / Fondo sólido hombre.

Top : pelo largo / En el fondo : de pelo corto.

Derecho (y color) : AX3 / Izquierda (sin colorear) no-AX3.

Datos

El rayado superior es el 90% del rectángulo superior ("el 90% de las personas con pelo largo son mujeres").

El rayado total en el rectángulo de color de la derecha es el 80% de ese rectángulo ("el 80% de las personas con este tipo de sangre son mujeres").

Explicación

Este diagrama muestra de forma esquemática cómo la población (de todas las hembras y no hembras consideradas) puede dividirse simultáneamente en hembras/no hembras, AX3/no AX3, y pelo largo/no pelo largo ("corto"). Utiliza el área, al menos de forma aproximada, para representar las proporciones (hay alguna exageración para que la imagen sea más clara).

Es evidente que estas tres clasificaciones binarias crean ocho grupos posibles. Cada grupo aparece aquí.

La información facilitada indica que el rectángulo superior con rayas cruzadas (mujeres de pelo largo) comprende el 90% del rectángulo superior (todas las personas de pelo largo). También afirma que las partes combinadas con rayas cruzadas de los rectángulos coloreados (mujeres de pelo largo con AX3 y mujeres de pelo corto con AX3) comprenden el 80% de la región coloreada de la derecha (todas las personas con AX3). Se nos dice que alguien se encuentra en la esquina superior derecha (flecha): personas de pelo largo con AX3. ¿Qué proporción de este rectángulo está rayada (mujer)?

También he asumido (implícitamente) que el tipo de sangre y la longitud del pelo son independiente la proporción del rectángulo superior (pelo largo) que está coloreado (AX3) es igual a la proporción del rectángulo inferior (pelo corto) que está coloreado (AX3). Eso es lo que significa la independencia. Es una suposición justa y natural cuando se abordan cuestiones como ésta, pero, por supuesto, es necesario enunciarla.

Se desconoce la posición del rectángulo superior rayado (hembras de pelo largo). Podemos imaginarnos deslizando el rectángulo rayado superior de lado a lado y deslizando el rectángulo rayado inferior de lado a lado y posiblemente cambiando su anchura. Si lo hacemos de manera que el 80% del rectángulo de color siga siendo cruzado, tal alteración no cambiará ninguna de las informaciones indicadas, pero sí puede alterar la proporción de hembras en el rectángulo superior derecho. Evidentemente, la proporción puede estar entre el 0% y el 100% y seguir siendo coherente con la información dada, como en esta imagen:

Figure 2


Uno de los puntos fuertes de este método es que establece la existencia de múltiples respuestas a la pregunta. Se podría traducir todo esto algebraicamente y, mediante la estipulación de probabilidades, ofrecer situaciones concretas como posibles ejemplos, pero entonces surgiría la pregunta de si tales ejemplos son realmente consistentes con los datos. Por ejemplo, si alguien sugiriera que tal vez el 50% de las personas de pelo largo son AX3, de entrada no es evidente que esto sea siquiera posible dada toda la información disponible. Estos diagramas (de Venn) de la población y sus subgrupos aclaran estas cosas.

13voto

mat_geek Puntos 1367

Se trata de una cuestión de probabilidad condicional. Se sabe que la persona tiene el pelo largo y el grupo sanguíneo Ax3 . Sea $$\ \ \ \ \ A =\{\text{'The person has long hair'}\}\\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ B = \{\text{'The person has blood type Ax3'}\} \\ C =\{\text{'The person is female'}\}.$$
Así que busca $P(C|A\ \text{and}\ B)$ . Usted sabe que $P(C|A)=0.9$ y $P(C|B)=0.8$ .
¿Es suficiente para calcular $P(C|A\ \text{and}\ B)$ ? Supongamos que $P(A\ \text{and}\ B\ \text{and}\ C)=0.7$ . Entonces $$P(C|A\ \text{and}\ B)=P(A\ \text{and}\ B\ \text{and}\ C)/ P(A\ \text{and}\ B)=0.7/P(A\ \text{and}\ B).$$ Supongamos que $P(A\ \text{and}\ B)=0.8$ . Entonces, por lo anterior, $P(C|A\ \text{and}\ B)=0.875$ . Por otro lado, si $P(A\ \text{and}\ B)=0.9$ entonces tendríamos $P(C|A\ \text{and}\ B)$ =0.78.

Ahora ambas cosas son posibles cuando $P(C|A)=0.9$ y $P(C|B)=0.8$ . Así que no podemos decir con seguridad que $P(C|A\ \text{and}\ B)$ es.

4voto

Kawish Puntos 56

Una discusión fascinante. Me pregunto si especificamos también P(A) y P(B) si los rangos de P(C| A,B) no serán mucho más estrechos que el intervalo completo [0,1], simplemente por las muchas restricciones que tenemos.

Siguiendo la notación introducida anteriormente:

A = el caso de que la persona tenga el pelo largo

B = el caso de que la persona tenga el tipo de sangre AX3

C = el caso de que la persona sea mujer

P(C|A) = 0,9

P(C|B) = 0,8

P(C) = 0,5 (es decir, supongamos una proporción igual de hombres y mujeres en la población en general)

¡no parece posible suponer que los eventos A y B sean condicionalmente independientes dado C ! Esto lleva directamente a una contradicción: si $P(A \wedge B | C) = P(A| C) \cdot P(B| C) = P(C| A) \frac{P(A)}{P(C)} \cdot P(C| B) \frac{P(B)}{P(C)}$

entonces

$P(C| A \wedge B ) = P(A \wedge B | C) \cdot \left( \frac{P(C)}{P(A \wedge B)} \right) = P(C| A) \frac{P(A)}{P(C)} \cdot P(C| B) \frac{P(B)}{P(C)} \cdot \left( \frac{P(C)}{P(A \wedge B)} \right) $

Si ahora suponemos que A y B son también independientes: $P(A \wedge B) = P(A) P(B)$ la mayoría de los términos se cancelan y terminamos con

$P(C| A \wedge B ) = \frac{P(C| A) \cdot P(C| B)}{P(C)} = \frac{0.9 \cdot 0.8}{0.5} > 1$

Siguiendo con la maravillosa representación geométrica del problema de Whuber: Si bien es cierto que en general $P(C | A \wedge B)$ puede asumir cualquier valor en el intervalo $[0,1]$ las restricciones geométricas reducen significativamente el rango de valores posibles para los valores de $P(A)$ y $P(B)$ que no son "demasiado pequeños". (Aunque también podemos acotar los márgenes por arriba: $P(A)$ y $P(B)$ )

Calculemos el {\bf menor valor posible} para $P(C | A \wedge B)$ bajo las siguientes restricciones geométricas:

1. La fracción del área superior (A TRUE) cubierta por el rectángulo superior debe ser igual a $P(C|A)=0.9$

2. La suma de las áreas de los dos rectángulos debe ser igual a $P(C)=0.5$

3. La suma de la fracción de las áreas de los dos rectángulos de color (es decir, su superposición con el evento B) debe ser igual a $P(C|B)=0.8$

4. (trivial) El rectángulo superior no puede ser movido más allá del límite izquierdo y no debe ser movido más allá de su superposición mínima a la izquierda.

5. (trivial) El rectángulo inferior no puede ser movido más allá del límite derecho y no debe ser movido más allá de su máxima superposición a la derecha.

Estas restricciones limitan la libertad con la que podemos deslizar los rectángulos con hash y, a su vez, generan límites inferiores para $P(C | A \wedge B)$ . La figura siguiente (creada con este R guión ) muestra dos ejemplos enter image description here

Recorriendo un rango de valores posibles para P(A) y P(B) ( R guión ) genera este gráfico enter image description here

En conclusión, podemos acotar la probabilidad condicional P(c|A,B) para un P(A), P(B) dado

1voto

begray Puntos 4636

Hacer la hipótesis es que la persona detrás de una cortina es una mujer.

Nos han dado dos pruebas, a saber:

Evidencia 1: Sabemos que la persona tiene el pelo largo (y nos dicen que el 90% de las personas con pelo largo son mujeres)

Evidencia 2: Sabemos que la persona tiene un tipo de sangre raro AX3 (y nos dicen que el 80% de las personas con este tipo de sangre son mujeres)

Teniendo en cuenta sólo la Evidencia 1, podemos afirmar que la persona que está detrás de una cortina tiene un valor de probabilidad de 0,9 de ser una mujer (suponiendo una división 50:50 entre hombres y mujeres).

En cuanto a la pregunta planteada anteriormente en el hilo, a saber, "¿Estarías de acuerdo en que la respuesta debe ser MAYOR que 0,9?", sin hacer ninguna matemática, diría que intuitivamente, la respuesta debe ser "sí" (es MAYOR que 0,9). La lógica es que la evidencia 2 es una evidencia de apoyo (de nuevo, asumiendo una división 50:50 para el número de hombres y mujeres en el mundo). Si nos dijeran que el 50% de las personas con sangre del tipo AX3 fueran mujeres, entonces la Evidencia 2 sería neutral y no tendría importancia. Pero como se nos dice que el 80% de todas las personas con este tipo de sangre son mujeres, la prueba 2 es una prueba de apoyo y lógicamente debería elevar la probabilidad final de que sea una mujer por encima de 0,9.

Para calcular una probabilidad específica, podemos aplicar la regla de Bayes para la prueba 1 y luego utilizar la actualización bayesiana para aplicar la prueba 2 a la nueva hipótesis.

Supongamos:

A = el caso de que la persona tenga el pelo largo

B = el caso de que la persona tenga el tipo de sangre AX3

C = el caso de que la persona sea mujer (se supone que el 50%)

Aplicación de la regla de Bayes a las pruebas 1:

P(C|A) = (P(A|C) * P(C)) / P(A)

En este caso, de nuevo si asumimos una división 50:50 entre hombres y mujeres:

P(A) = (0,5 * 0,9) + (0,5 * 0,1) = 0,5

Por lo tanto, P(C|A) = (0,9 * 0,5) / 0,5 = 0,9 (No es sorprendente, pero sería diferente si no tuviéramos una división 50:50 entre hombres y mujeres)

Utilizando la actualización bayesiana para aplicar la Evidencia 2 e introduciendo 0,9 como la nueva probabilidad a priori, tenemos:

P(C|A Y B) = (P(B|C) * 0,9) / P(E)

Aquí, P(E) es la probabilidad de la prueba 2, dada la hipótesis de que la persona ya tiene un 90% de posibilidades de ser mujer.

P(E) = (0,9 * 0,8) + (0,1 * 0,2) [es la ley de la probabilidad total: (P(mujer)*P(AX3|mujer) + P(hombre)*P(AX3|hombre)] Por tanto, P(E) = 0,74

Por tanto, P(C|A Y B) = (0,8 * 0,9) / 0,74 = 0,97297

0voto

Ben Puntos 11

Pregunta Replanteamiento y generalización

$A$ , $B$ y $C$ son incógnitas binarias cuyos valores posibles son $0$ y $1$ . Sea $Z_i$ defienden la proposición: "El valor de $Z$ es $i$ ". También dejemos que $(X | Y)$ significa "La probabilidad de que $X$ dado que $Y$ ". ¿Qué es $(A_a | B_b C_c I)$ dado que

  1. $(A_{a_1} | B_{b_1} I) = u_1$ y $(A_{a_2} | C_{c_2} I) = u_2$
  2. $(A_{a_1} | B_{b_1} I) = u_1$ y $(A_{a_2} | C_{c_2} I) = u_2$ y $(B C | I) = (B | I)(C | I)$
  3. $(A_{a_1} | B_{b_1} I) = u_1$ y $(A_{a_2} | C_{c_2} I) = u_2$ y $(A_0 | I) = \frac{1}{2}$
  4. $(A_{a_1} | B_{b_1} I) = u_1$ y $(A_{a_2} | C_{c_2} I) = u_2$ y $(A_0 | I) = \frac{1}{2}$ y $(B C | I) = (B | I)(C | I)$

y que $I$ no contiene ninguna información relevante aparte de la implícita en las asignaciones? El último conjunto de las condiciones 2 y 4 es la abreviatura de la declaración de independencia $$ (B_j C_k | I) = (B_j | I)(C_k | I) \quad , \quad j = 0, 1 \quad k = 0,1 $$ Trata cada uno de los cuatro casos por separado.

Respuestas

Caso 1

Tenemos que especificar la distribución $(ABC | I)$ . El problema está infradeterminado, porque $(ABC | I)$ requiere ocho números, pero sólo tenemos tres ecuaciones: las dos condiciones dadas y la condición de normalización.

Se ha demostrado por diversos medios esotéricos que la distribución a asignar cuando la información no determina de otra manera una solución es la que, de todas las distribuciones consistentes con la información conocida, tiene la mayor entropía. Cualquier otra distribución implica que sabemos más que la información conocida, lo que por supuesto es una contradicción.

Todo lo que tenemos que hacer, por lo tanto, es asignar la máxima distribución de entropía. Esto es más fácil de decir que de hacer, y no he encontrado una solución general de forma cerrada. Pero se pueden encontrar soluciones particulares utilizando un optimizador numérico. Maximizamos $$ - \sum_{i,j,k} (A_i B_j C_k | I) \ln (A_i B_j C_k | I) $$ con sujeción a las restricciones $$ \sum_{i,j,k} (A_i B_j C_k | I) = 1 $$ y $$ (A_{a_1} | B_{b_1} I) = u_1 \quad\quad \text{i.e.} \quad \frac{\sum\limits_k (A_{a_1} B_{b_1} C_k | I )}{\sum\limits_{i,k} (A_i B_{b_1} C_k | I)} = u_1 $$ y $$ (A_{a_2} | C_{c_2} I) = u_2 \quad\quad \text{i.e.} \quad \frac{\sum\limits_j (A_{a_2} B_j C_{c_2} | I)}{\sum\limits_{i,j} (A_i B_j C_{c_2} | I)} = u_2 $$ Ahora apliquemos esto a la pregunta. Si tenemos

  1. "La persona es mujer" $\longleftrightarrow A_1$
  2. "La persona tiene el pelo largo" $\longleftrightarrow B_1$
  3. "La persona tiene el tipo de sangre AX3" $\longleftrightarrow C_1$

entonces $a = 1$ , $b = 1$ , $c = 1$ , $a_1 = 1$ , $b_1 = 1$ , $a_2 = 1$ , $c_2 = 1$ , $u_1 = 0.9$ , $u_2 = 0.8$ y encontramos que para la solución de máxima entropía, $(A_1 | B_1 C_1 I) \simeq 0.932$ . Por tanto, la probabilidad de que la persona que está detrás de la cortina sea una mujer, dado que tiene el pelo largo y el grupo sanguíneo AX3, es de 0,932.

Caso 2

Ahora repetimos el ejercicio con la restricción extra de que para una persona determinada, conociendo el valor de $B$ (el estado del cabello) no afecta a nuestra estimación del valor de $C$ (el estado del tipo de sangre), y viceversa. Todo es igual que en el caso 1, salvo que hay dos restricciones adicionales en la optimización, a saber \begin{align*} (B_0 | C_l I) &= (B_0 | I) \quad , \quad l = 0, 1 \\ \end{align*} es decir \begin{align*} \frac{\sum\limits_i (A_i B_0 C_l | I)}{\sum\limits_{i,j} (A_i B_j C_l | I)} &= \sum_{i,k} (A_i B_0 C_k | I) \quad , \quad l = 0, 1 \end{align*} Esto da $(A_1 | B_1 C_1 I) \simeq 0.936$ Por tanto, la probabilidad de que la persona que está detrás de la cortina sea una mujer, dado que tiene el pelo largo y el grupo sanguíneo AX3, es de 0,936.

Caso 3

Ahora eliminamos la condición de independencia y la sustituimos por la condición previa de que existe la misma probabilidad de que una persona determinada sea hombre o mujer: $$ (A_0 | I) = \frac{1}{2} \quad \quad \text{i.e.} \quad \sum_{j,k} (A_0 B_j C_k | I) = \frac{1}{2} $$ Esta vez $(A_1 | B_1 C_1 I) \simeq 0.973$ Por tanto, la probabilidad de que la persona que está detrás de la cortina sea una mujer, dado que tiene el pelo largo y el grupo sanguíneo AX3, es de 0,973.

Caso 4

Por último, volvemos a introducir las restricciones de independencia del caso 2, y encontramos que $(A_1 | B_1 C_1 I) \simeq 0.989$ . Por tanto, la probabilidad de que la persona que está detrás de la cortina sea una mujer, dado que tiene el pelo largo y el grupo sanguíneo AX3, es de 0,989.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X