He observado que es muy popular formular problemas relacionados con la probabilidad de encontrar al menos $k$ de $m$ chips de chocolate en una de $n$ galletas utilizando la distribución de Poisson. Quería saber exactamente por qué la distribución de Poisson es adecuada para este problema.
Respuestas
¿Demasiados anuncios?Se trata de un problema sobre ensayos de Bernoulli. La distribución binomial pasa a la de Poisson en el límite de un gran número de ensayos y una pequeña probabilidad de éxito. Déjame resolver el problema paso a paso para que puedas entender fácilmente lo que quiero decir.
En primer lugar, hay que calcular la probabilidad de encontrar exactamente $k$ trozos de chocolate en la primera** galleta que tomes, dado que tu abuela solía $m$ de chocolate para hacer $n$ galletas.
Vamos a contar:
La probabilidad de que un solo trozo de chocolate acabe en tu galleta es $\frac{1}{n}$ (totalmente aleatorio). Esta es la "probabilidad de éxito". Así, la probabilidad de que cada configuración tenga $k$ chips en ella es $(\frac{1}{n})^k (1-\frac{1}{n})^{m-k}$ .
El número total de formas diferentes de seleccionar $k$ fichas de todos los $m$ es $\binom{m}{k}$ . Cada una de estas distribuciones es igualmente probable, con la probabilidad dada en la línea anterior.
Por lo tanto, encontrará $k$ de chocolate en la primera galleta que tome con una probabilidad de $P(k) = \binom{m}{k} (\frac{1}{n})^k (1-\frac{1}{n})^{m-k}$ . Se puede decir que se trata de la distribución binomial.
Si tu profesor te pide explícitamente que resuelvas el problema utilizando la distribución de Poisson (con fichas medias por galleta $\frac{m}{n}$ ), entonces hay que asegurarse de que el ejercicio cumple las condiciones para ello, es decir, que la probabilidad de éxito es pequeña $\frac{1}{n} << 1$ y que el número de pruebas es grande $m >> 1$ . Por lo general, $n > 100$ y $m > 100$ se da.
Por último, y sólo para completar, la probabilidad de tener al menos $k$ de chocolate viene dado por $1 - P(0) - P(1) - \cdots - P(k-1)$ , donde $P(k)$ puede ser la distribución binomial o la de Poisson.
** Es una forma de decir que la probabilidad no está condicionada al conocimiento previo del número de pepitas de chocolate en otras galletas. Por ejemplo, es posible que tus parientes (o incluso tú mismo) hayan comido ya muchas galletas, pero TÚ no sabes cuántas pepitas de chocolate había en todas las galletas tomadas anteriormente o que aún quedan.
En definitiva, porque el número de fichas de una galleta es un buen ejemplo de proceso de Poisson. No hay a priori físico razón por la que esto debería ser así; de hecho, los procesos de control de calidad podrían alejar el proceso de ser Poisson.
La distribución de Poisson es la distribución canónica de un proceso de Poisson en el que la frecuencia de los eventos es independiente de los eventos que ya han ocurrido, por ejemplo, la desintegración radiactiva, etc. Es seguro que el número de fichas de una galleta es independiente del número de fichas que ya han llegado a cada porción de deliciosa masa de galleta.
Sin embargo, no todos los procesos de Poisson siguen la distribución de Poisson. A veces, su proceso puede ser más agrupado o más regular. Por ejemplo, el número de Starbucks en un código postal no es Poisson: hay una clara dependencia de la existencia de otros Starbucks en la región, y la oferta/demanda suele acabar generando un cúmulo de eventos. De ahí que las ciudades tengan una mayor densidad de Starbucks que las zonas rurales.
Por otro lado, algunos procesos tienden a distribuirse. Por ejemplo, los gatos monteses son muy territoriales. Así que la distribución espacial de los gatos monteses tiende a ser más distribuida y menos agrupada. Existe una clara dependencia de los acontecimientos previos (un gato montés autóctono) con respecto a los acontecimientos posteriores (la llegada de un nuevo gato montés).
Los procesos de Poisson agrupados/distribuidos pueden aproximarse utilizando las distribuciones binomial y binomial negativa. En concreto, las distribuciones Poisson/Binomial/Negativa pueden generarse utilizando un función generadora de probabilidad con la función generadora $f(r) = a+br$ .
Para la distribución de Poisson, $b=0$ . Para el proceso agrupado, $b > 0$ y para los procesos distribuidos, $b < 0$ .
Esto da lugar a una familia de distribuciones monoestocásticas que pueden hacer un trabajo bastante bueno en la aproximación del número de eventos discretos en algún intervalo, ya sea un intervalo de tiempo (eventos por día) o un intervalo espacial (Starbucks por milla cuadrada) o algún otro intervalo (chips de chocolate por galleta).
Dado que no tenemos ninguna razón para esperar la interdependencia de las fichas de chocolate - dos fichas no tienen ninguna interacción entre sí que nos interese - entonces un proceso de Poisson es el más adecuado.