7 votos

¿Cómo se puede calcular la media de una distribución de Poisson a partir de los datos?

He pensado en tres diferentes enfoques para estimar la media de una distribución de Poisson, pero no estoy seguro de cuál es el método correcto para estimar (el tercero está documentado por separado al final de la pregunta).

Por el bien de un ejemplo concreto, decir que queremos encontrar la distribución de Poisson para el número de vehículos que pasan por una hora (en frente de nuestra casa o lo que sea).

Decir que queremos estimar esta de pie fuera de las horas de casa para $t$ horas y contando el número de $n$ de los coches que vimos.

Entonces podríamos aproximar la media de $\lambda$ como:

$$\lambda \approx \frac{n}{t}$$

donde $\lambda$ es la media del número de coches que vemos por hora.

Que es el primer enfoque (que es el que creo que es la correcta).

(nota: sé que el primero es más fácil de hacer en la vida real para el ejemplo específico, pero no estoy preocupado con eso, estoy preocupado con la matemática de la corrección)

El segundo enfoque es el siguiente enfoque.

En lugar de imaginar que por alguna razón solo se nos permite el registro de cuánto tiempo nos lleva a ver 1 solo coche en concreto. Tenemos constancia de cuánto tuvo que ver el coche i $\tau_i$ (horas). Ahora se podría estimar la cantidad de autos que vemos esperar a ver en 1 hora haciendo:

$$ \lambda_i \approx \frac{1}{\tau_i}$$

[tenga en cuenta que si $\tau_i < 1$, entonces podemos tener un valor medio de ver un coche durante una hora para ser > 1]

Así que ahora, decir que en vez elegimos hacer esto en independiente días y tomamos k de estos períodos de tiempo $\tau_i$ y en su lugar se estimó la "global" significa que haciendo un promedio de los medios:

$$\lambda = \frac{1}{k}\sum^{k}_{i=1} \lambda_i = \frac{1}{k}\sum^{k}_{i=1} \frac{1}{\tau_i}$$

El segundo método puede parecer un poco extraño, pero me preguntaba si los dos método donde realmente equivalente de alguna manera, o si el segundo estaba completamente equivocado y yo por qué. La primera parece ser la correcta, pero me parece que no puede "probar" a mí mismo por qué mi intuición me dice que.

[observe que el segundo método tiene una propiedad interesante donde podemos en lugar de la ponderación de todos ellos es igual, podemos hacer un promedio ponderado a, tal vez, inserte el concepto intuitivo de que $\tau_i$ confiamos más para nuestra aplicación. Un poco tangencial a mi pregunta original, pero un pensamiento interesante...]


Recompensa Sección

Me olvidé de agregar la primera vez que me hizo la pregunta y pensé que era importante añadir que ahora (ya que esta era la razón de mi pregunta, surgió en el primer lugar!).

Yo tengo otro método para estimar la media y preguntaba si era correcto.

En lugar de esperar fuera de t minutos, lo que si hizo la siguiente.

Se esperaba fuera y recorer cuánto tiempo le tomó a ver 1 coche. Deje $\tau_i$ cantidad de tiempo que esperó para ver la i-ésima coche. Sin embargo, observe que después de ver un coche, tienes que detener su reloj y después (tal vez en otro día), reiniciar el reloj esperando a ver la próxima aparición de un solo coche (de lo contrario, si usted acaba de dejar su stop-reloj y volver a empezar de inmediato, tan solo es el mismo que el original MLE estimador me estaba preguntando acerca de), y obviamente tiene que repetir esto, pero de momento. De hecho, se supone que hacer esto $n$ veces (es decir, usted ve n los coches y registro de cuánto tuvo que ver a cada uno). Entonces, en lugar de hacer mi método anterior de $\frac{1}{\tau_i}$, en lugar de tratar de hacer algo similar para el primer método de probabilidad máxima de la siguiente forma:

$$\lambda \approx \frac{n}{t} = \frac{n}{\sum^{n}_{i=1} \tau_i}$$

donde t es el tiempo total que se llevó a ver n de los coches. Pero esta vez estos coches fueron vistos por n independiente "muestras". Se considera que este método puede no ser correcta, pero no estaba seguro. Hay algo acerca de la necesidad de tener la total intervalo de tiempo t en un solo consecutivos intervalo de tiempo?

11voto

deostroll Puntos 3586

Voy a empezar por comentar en el segundo enfoque. Desde su observación es un proceso de Poisson, entonces el tiempo de $\tau_1$ que tienes que esperar para observar el primer coche sigue una distribución exponencial $\tau_1\sim\mathrm{Exp}(\lambda)$ donde $\lambda$ es la intensidad del proceso de Poisson.

Desde $\tau_1\sim\mathrm{Exp}(\lambda)$, entonces, de hecho, sostiene que

$$\mathbb{E}[\tau_1]=\frac{1}{\lambda}.$$

Sin embargo, la estimación de $\lambda$ $1/\tau_1$ lleva a algunos problemas, ya que el estimador no es ni imparcial. De hecho,

$$\mathbb{E}\left[\frac{1}{\tau_1}\right]=+\infty,$$

que no se ajusta a su intuición de que la $\mathbb{E}[1/\tau_1]=\lambda$.

Ahora, su segundo estimador es una forma más natural, lo que se conoce como el estimador de máxima verosimilitud (MLE) en las estadísticas. Su idea es calcular la $\lambda$ por

$$\widehat{\lambda}_1=\frac{N_t}{t},$$

donde $N_t$ es el número de coches que usted ve en un intervalo de tiempo de longitud $t$. En este caso,

$$\mathbb{E}[\widehat{\lambda}_1]=\frac{1}{t}\mathbb{E}[N_t]=\frac{1}{t}\lambda t=\lambda.$$

Por último, tenga en cuenta que su idea de hacer muchas estimaciones y teniendo un promedio también se puede aplicar en este caso. Usted puede contar el número de coches que llegan cada día en $t$ horas, y denotan este número por $n_i$ día $i$. A continuación, puede estimar el $\lambda$ por

$$\widehat{\lambda}_2=\frac{1}{k}\sum_{i=1}^k\frac{n_i}{t},$$

y este estimador es en efecto muy natural.


Recompensa sección:

Permítanme formalizar ligeramente de su respuesta. Suponga que usted empiece a observar en $T_0$ y los vehículos llegan a veces $T_1<T_2<T_3<\cdots$. Denotar por $\tau_i$ el tiempo que se tarda en ver el siguiente coche después el coche $i$ va por (Nota: como se explicó en la sección tercera, esta tiene la misma distribución que el tiempo que tiene que esperar a ver un coche, partida en cualquier momento $t$). Con estas nuevas notaciones, esto significa que $\tau_1=T_1-T_0$ y para $i>1$, $\tau_i=T_i-T_{i-1}$.

Desde los tiempos de llegada de $T_1<T_2<\cdots$ formulario de un proceso de Poisson de intensidad $\lambda$, entonces las siguientes propiedades:

  • $N_t\sim\mathrm{Poiss}(\lambda t)$, o en otras palabras, el número de coches que llegan en un intervalo de longitud de $t$ tiene una distribución de Poisson de parámetro $\lambda t$;
  • para cualquier $i\in\mathbb N$, $\tau_i\sim\mathrm{Exp}(\lambda)$, es decir, el tiempo entre los tiempos de llegada de los dos coches se distribuye como una exponencial de parámetro $\lambda$;
  • para cualquier $i\in\mathbb N$, $T_i\sim\mathrm{Gamma}(n,\lambda)$, es decir, el tiempo de llegada de coche número $i$ se distribuye como una variable aleatoria Gamma de parámetros $n$ $\lambda$.

Así que, en realidad, $\sum_{i=1}^n\tau_i=T_n-T_0$ representa el tiempo que tarda $n$ coches para ir a por el, cuando a partir de la observación en un momento $T_0$. Ahora, hay dos puntos que me gustaría hacer. En primer lugar, tenga en cuenta que el $\tau_i$ son muestras independientes de una distribución exponencial. Por lo tanto, por la fuerte ley de los grandes números,

$$ \frac1n\sum_{i=1}^n\tau_i\xrightarrow[n\rightarrow+\infty]{}E[\tau_1]=\frac1\lambda. $$

Por lo tanto, desde el $\lambda>0$, su estimador tiende casi seguramente a $\lambda$ $n$ va al infinito:

$$ \widehat\lambda_3=\frac{n}{\sum_{i=1}^n\tau_i}\xrightarrow[n\rightarrow+\infty]{}\lambda. $$

Segundo, dado que la $T_n$ es una suma de $n$ independiente exponencial de las variables aleatorias, a continuación,$T_n\sim\mathrm{Gamma}(n,\lambda)$. Es decir, la función de densidad de probabilidad de $T_n$ está dado por

$$ f_n(x)=\frac{x^{n-1}}{\Gamma(n)}\lambda^ne^{-\lambda x}\mathbb 1_{(0,+\infty)}(x). $$

Por lo tanto, se puede calcular la expectativa de su estimador:

$$ \mathbb E\left[\widehat\lambda_3\right]=n\int_0^\infty\frac{x^{n-2}}{\Gamma(n)}\lambda^ne^{-\lambda x}\,\mathrm dx. $$

Como se ha visto anteriormente, la integral diverge para $n=1$. Para $n\ge2$ sin embargo, usted puede calcular la integral como

$$ \mathbb E\left[\widehat\lambda_3\right]=n\frac{\lambda\Gamma(n-1)}{\Gamma(n)}\underbrace{\int_0^\infty\frac{x^{n-2}}{\Gamma(n-1)}\lambda^{n-1}e^{-\lambda x}\,\mathrm dx}_{=1}=\frac n{n-1}\lambda. $$

Por lo tanto, parece ser más sabio para definir

$$ \widehat\lambda_4=\frac{n-1}{\sum_{i=1}^n\tau_i}, $$

para $n\ge2$. Este estimador todavía convergen a$\lambda$, casi con toda seguridad, pero además de ser tal que $\mathbb E\left[\widehat\lambda_4\right]=\lambda$.

En otras palabras, $\widehat\lambda_4$ es consistente e imparcial.


Aclarar algunos puntos:

En la edición, usted dice que "de lo contrario, si usted acaba de dejar su stop-reloj y volver a empezar de inmediato, tan solo es el mismo que el original MLE estimador me estaba preguntando acerca de". Esto no es cierto. Si usted hace esto $n$ de veces, entonces usted va a esperar un tiempo que se distribuye como una $\Gamma$ de la distribución, como se mencionó anteriormente. La diferencia es que para el original MLE estimador de hacer esto para un período de $t$ en lugar de contar las $n$ coches. Como se puede ver, ambos métodos dan resultados diferentes.

También mencionar que desea detener su reloj de parada, y se reinicia en un momento posterior, en lugar de en seguida.

Esto no cambia nada, puesto que las distribuciones exponenciales son memoryless. En efecto, supongamos que usted observar el primer coche, y detener su stop-reloj. A continuación, habilita a ella en un momento $t$. Digamos que $T_i\le t<T_{i+1}$, es decir, que permitirá a su parada de reloj de entre car $i$$i+1$.

Bueno, de hecho, puede calcular la distribución de $T_{i+1}-t$ (es decir, el tiempo de espera hasta el próximo coche) y es $\mathrm{Exp}(\lambda)$. Esto se conoce como la paradoja de inspección y podría ser poco intuitivo a primera vista. Es un resultado de la memoryless propiedad de la exponencial de las variables aleatorias.

Entonces, para resumir, siempre que active la parada del reloj, el tiempo esperado $\tau_i$ siempre será una distribución exponencial de parámetro $\lambda$. Por lo tanto, $\sum_{i=1}^n\tau_i$ es de hecho un $\Gamma(n,\lambda)$ desde el $\tau_i$ son independientes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X