35 votos

¿Cómo es diferente la distribución de Poisson de la distribución normal?

He generado un vector que tiene una distribución de Poisson, como sigue:

x = rpois(1000,10)

Si hago un histograma usando hist(x), la distribución se ve como una familiar distribución normal en forma de campana. Sin embargo, el test de Kolmogorov-Smirnoff usando ks.test(x, 'pnorm',10,3) dice que la distribución es significativamente diferente a una distribución normal, debido al valor de p muy pequeño.

Entonces mi pregunta es: ¿cómo difiere la distribución de Poisson de una distribución normal, cuando el histograma se ve tan similar a una distribución normal?

0 votos

También (como complemento a la respuesta de David): lee esto (stats.stackexchange.com/a/2498/603) y establece tu tamaño de muestra en 100 y observa la diferencia que hace.

38voto

alfC Puntos 1398

Aquí hay una forma mucho más fácil de entenderlo:

Puedes ver la distribución binomial como la "madre" de la mayoría de las distribuciones. La distribución normal es solo una aproximación de la distribución binomial cuando n se vuelve lo suficientemente grande. De hecho, Abraham de Moivre descubrió esencialmente la distribución normal mientras intentaba aproximar la distribución binomial porque rápidamente se descontrola calcular la distribución binomial a medida que n crece, especialmente cuando no se tienen computadoras (referencia).

La distribución de Poisson también es solo otra aproximación de la distribución binomial, pero se mantiene mucho mejor que la distribución normal cuando n es grande y p es pequeño, o más precisamente cuando la media es aproximadamente igual a la varianza (recuerda que para la distribución binomial, la media = np y la varianza = np(1-p)) (referencia). ¿Por qué esta situación en particular es tan importante? Aparentemente aparece mucho en el mundo real y es por eso que tenemos esta aproximación "especial". El ejemplo a continuación ilustra escenarios donde la aproximación de Poisson funciona realmente bien.

Ejemplo

Tenemos un centro de datos de 100,000 computadoras. La probabilidad de que cualquier computadora falle hoy es de 0.001. Entonces, en promedio, np=100 computadoras fallan en el centro de datos. ¿Cuál es la probabilidad de que hoy solo fallen 50 computadoras?

Binomial: 1.208E-8
Poisson: 1.223E-8
Normal: 1.469E-7

De hecho, la calidad de la aproximación para la distribución normal empeora a medida que avanzamos en la cola de la distribución, pero la distribución de Poisson sigue manteniéndose muy bien. En el ejemplo anterior, consideremos cuál es la probabilidad de que hoy solo fallen 5 computadoras.

Binomial: 2.96E-36 
Poisson: 3.1E-36
Normal: 9.6E-22

Esperemos que esto te dé una mejor comprensión intuitiva de estas 3 distribuciones.

0 votos

¡Qué respuesta increíble y fantástica! ¡Muchas gracias. :)

0 votos

El ejemplo sería mejor si se incluyera la verdadera probabilidad de fallo de X computadoras, junto con los valores de la distribución.

2 votos

Binomial ES la verdadera probabilidad

26voto

mdahlman Puntos 5700
  1. Una distribución de Poisson es discreta, mientras que una distribución normal es continua, y una variable aleatoria de Poisson siempre es >= 0. Por lo tanto, una prueba de Kolmogorov-Smirnov a menudo podrá distinguir la diferencia.

  2. Cuando la media de una distribución de Poisson es grande, se vuelve similar a una distribución normal. Sin embargo, rpois(1000, 10) ni siquiera se ve tan similar a una distribución normal (se detiene en 0 y la cola derecha es demasiado larga).

  3. ¿Por qué lo estás comparando con ks.test(..., 'pnorm', 10, 3) en lugar de ks.test(..., 'pnorm', 10, sqrt(10))? La diferencia entre 3 y $\sqrt{10}$ es pequeña pero sí marcará una diferencia al comparar distribuciones. Incluso si la distribución fuera realmente normal, terminarías con una distribución de valor p anticonservadora:

    set.seed(1)
    
    hist(replicate(10000, ks.test(rnorm(1000, 10, sqrt(10)), 'pnorm', 10, 3)$p.value))

introduzca aquí la descripción de la imagen

3 votos

A menudo, las personas ven algo vagamente simétrico y asumen que se ve "normal". Supongo que eso es lo que vio @Ross.

2 votos

Tenga en cuenta que la prueba de KS generalmente asume distribuciones continuas, por lo que confiar en el valor p informado en este caso también puede ser algo sospechoso.

1 votos

Verdadero: corriendo hist(replicate(1000, ks.test(rpois(1000, 10), rpois(1000, 10))$p.value)) demuestra que una prueba comparando dos distribuciones de Poisson idénticas sería demasiado conservadora.

15voto

muratoa Puntos 651

Creo que vale la pena mencionar que una pmf de Poisson($\lambda$) es la pmf límite de una Binomial($n$,$p_n$) con $p_n = \lambda / n.

Se puede encontrar un desarrollo bastante extenso en este blog.

Pero también podemos demostrar esto de manera económica aquí. Si $X_n \sim \mathrm{Binomial}(n,\lambda/n)$ entonces para $k$ fijo $$ \begin{align} \mathbb P(X_n = k) &= \frac{n!}{k!(n-k)!} \left(\frac{\lambda}{n}\right)^k \left(1-\frac{\lambda}{n}\right)^{n-k} \\ &= \underbrace{\frac{n! n^{-k}}{(n-k)!}}_{\to 1} \frac{\lambda^k}{k!}\underbrace{(1-\lambda/n)^n}_{\to e^{-\lambda}} \cdot \underbrace{(1-\lambda/n)^{-k}}_{\to 1} \>. \end{align} $$

Los primeros y últimos términos se ven fácilmente que convergen a 1 a medida que $n \to \infty$ (recordando que $k$ está fijo). Por lo tanto, $$ \mathbb P(X_n = k) \to \frac{e^{-\lambda} \lambda^k}{k!} \,, $$ a medida que $n \to \infty$ ya que $(1-\lambda/n)^n \to e^{-\lambda}$.

Además, se tiene la aproximación normal a la Binomial, es decir, Binomial($n$,$p$) $\approxeq^d \mathcal N(np, np(1-p))$. La aproximación mejora a medida que $n \rightarrow \infty$ y $p$ se aleja de 0 y 1. Obviamente para el régimen de Poisson esto no es el caso (ya que allí $p_n = \lambda / n \rightarrow 0$) pero cuanto mayor sea $\lambda$, mayor puede ser $n$ y aún así tener una aproximación normal razonable.

0 votos

(+1) Bienvenido al sitio. He realizado algunas ediciones; por favor verifica que no haya introducido ningún error en el proceso. No estaba muy seguro de qué hacer con la última frase en la última oración. Alguna aclaración adicional podría ser útil.

1 votos

Me gusta la dirección de esto, aunque puede haber formas de relacionarlo un poco más estrechamente con la pregunta en cuestión al hacer que las conexiones entre las tres distribuciones sean más claras. Por ejemplo (a) Una variable aleatoria binomial (secuencia) actúa como una Poisson siempre y cuando $n p_n \approx \lambda$, (b) Una binomial (secuencia) actúa como una normal siempre y cuando $p$ sea aproximadamente una constante fija y (c) una Poisson (secuencia) actúa como una normal para $\lambda$ grande esencialmente debido a su divisibilidad infinita.

1 votos

Buenos comentarios @cardinal. Acerca de la última oración, para $n$ fijo y grande, cuanto mayor sea $\lambda$, mayor será $p_n$ (por ejemplo, más cerca de $1/2$). Por lo tanto, mejor será la aproximación Normal a la Binomial y, a su vez, a la Poisson.

2voto

Aksakal Puntos 11351

Es una gran pregunta porque la distribución de Poisson no solo es diferente, sino que también es muy similar a la distribución normal. Así es como es similar:

0 votos

Creo que quizás te refieres a que la suma de dos variables generadas de Poisson es en sí misma una distribución de Poisson. También es posible que desees aclarar que la distribución de Poisson aproxima bien a la distribución Binomial cuando N es grande y p es (muy pequeño), la distribución Normal aproxima bien a la distribución Binomial cuando N es grande y p está más cercano a .5, y ninguna funciona bien cuando p está muy cerca de 1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X