8 votos

¿Cómo calcular con probabilidades ínfimas y muestras grandes?

¿Es posible calcular o aproximar la probabilidad de que algo extremadamente improbable ocurra una vez en una muestra grande, es decir, en situaciones en las que la probabilidad es menor que el error de la máquina?

Por ejemplo, estaba intentando calcular la probabilidad aproximada de que alguien compartiera mi genoma. Al parecer, un genoma individual puede comprimirse sin pérdidas a unos 4MB (2^25 bits). Así que la probabilidad de que uno de los ~7 mil millones de humanos en el planeta comparta mi genoma es de aproximadamente:

$(1-\frac{1}{2^{2^{25}}})^{(7\times10^9)}$ .

O utilizando el Problema de cumpleaños método, la probabilidad de que haya al menos dos personas con genomas idénticos (ignoremos los gemelos y demás) es algo así como:

$\frac{(7\times10^9)!\cdot{{2^{2^{25}}} \choose 7\times10^9}}{({2^{2^{25}})}^{(7\times10^9)}}$

El problema aquí es que los números son tan pequeños o tan grandes que es imposible adivinar a grandes rasgos dónde estarían. Entonces, ¿hay alguna forma de aproximar estos cálculos o similares?

Me doy cuenta de que, en algunos casos, las suposiciones en las que se basan los problemas pueden estar fuera de los órdenes de magnitud, pero sería interesante incluso poder aproximarse a "más probable que no".

9voto

mat_geek Puntos 1367

Creo que esto equivale a un problema de estimación de las colas extremas de una distribución de probabilidad sin el tamaño de muestra extremadamente grande que se necesita para obtener alguno o sólo un pequeño número de valores observados en esos valores extremos. La única manera de hacerlo es asumiendo un modelo paramétrico que asume "automáticamente" una forma para las colas de las distribuciones. Pero si se justifica el modelo de probabilidad, se pueden obtener las estimaciones que se buscan ajustando la densidad de la familia paramétrica y utilizándola para integrar sobre el área de la cola para estimar esa pequeña probabilidad. Si la suposición paramétrica es errónea, la estimación podría estar muy lejos (en órdenes de magnitud).

1voto

matt Puntos 11

En física, un El problema de Fermi es un ejercicio que te pide que estimes un orden de magnitud. Puedes hacer lo mismo con las probabilidades. Con la práctica, tu intuición debería mejorar.

Como ha comentado Xi'an, puedes usar logaritmos. Tal vez no puedas ver $2^{2^{25}} \gg 10^{10}$ a simple vista, pero se puede ver que $2^{25} \gg 10$ (o $10 \log_2 10 \approx 33$ ), que lo implica.

En lugar de utilizar fórmulas complicadas para calcular valores exactos que no necesitas, utiliza estimaciones que sean sencillas de calcular. Por ejemplo, la probabilidad de que haya al menos otra persona con tu genoma (sin tener en cuenta a los gemelos) es como máximo el número esperado de personas con el mismo genoma, un simple producto $\frac {1}{2^{2^{25}}} (7 \times 10^9)$ que debería ser capaz de estimar como muy pequeño. Del mismo modo, la probabilidad de que algún par de personas tenga el mismo genoma es como máximo el número esperado de pares de personas con el mismo genoma, aproximadamente

$$ \frac{\frac 12 (7 \times 10^9)^2}{2^{2^{25}}}$$

Por cierto, no acepto este modelo de probabilidad para el genoma. Sólo he utilizado su modelo como ejemplo. Este modelo predeciría que la similitud genética que se suele encontrar entre hermanos es astronómicamente improbable.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X