24 votos

¿Pasar de modelizar un proceso mediante una distribución de Poisson a utilizar una distribución binomial negativa?

$\newcommand{\P}{\mathbb{P}}$ Tenemos un proceso aleatorio que puede o no ocurrir varias veces en un periodo de tiempo determinado $T$ . Disponemos de datos procedentes de un modelo preexistente de este proceso, que proporciona la probabilidad de que se produzcan una serie de acontecimientos en el período $0 \leq t < T$ . Este modelo existente es antiguo y necesitamos realizar comprobaciones en tiempo real de los datos de alimentación para detectar errores de estimación. El modelo antiguo que produce la alimentación de datos (que proporciona la probabilidad de $n$ acontecimientos que ocurren en el tiempo restante $t$ ) tiene una distribución de Poisson aproximada.

Así que para comprobar si hay anomalías/errores, dejamos que $t$ el tiempo restante y $X_t$ es el número total de eventos que se producirán en el tiempo restante $t$ . El modelo antiguo implica que las estimaciones $\P(X_t \leq c)$ . Así que bajo nuestro supuesto $X_t\sim \operatorname{Poisson}(\lambda_{t})$ que tenemos: $$ \P(X_t \leq c) = e^{-\lambda}\sum_{k=0}^c\frac{\lambda_t^k}{k!}\,. $$ Para obtener nuestra tasa de eventos $\lambda_t$ a partir de los resultados del modelo antiguo (observaciones $y_{t}$ ), utilizamos un enfoque de espacio de estados y modelamos la relación de estados como: $$ y_t = \lambda_t + \varepsilon_t\quad (\varepsilon_t \sim N(0, H_t))\,. $$ Filtramos las observaciones del modelo antiguo, utilizando un modelo de espacio de estados [decaimiento de velocidad constante] para la evolución del $\lambda_t$ para obtener el estado filtrado $E(\lambda_t|Y_t)$ y señalar una anomalía/error en la frecuencia estimada de sucesos a partir de los datos de alimentación si $E(\lambda_t|Y_t) < y_t$ .

Este enfoque funciona fantásticamente bien a la hora de detectar errores en los recuentos estimados de sucesos a lo largo de todo el periodo de tiempo. $T$ , pero no tan bien si queremos hacer lo mismo para otro periodo $0 \leq t < \sigma$ donde $\sigma < \frac{2}{3} T$ . Para evitar esto, hemos decidido que ahora queremos pasar a utilizar la distribución Binomial Negativa, de modo que ahora supondremos que $X_t\sim NB(r, p)$ y lo hemos hecho: $$ \P(X_{t} \leq c) = p^{r}\sum_{k = 0}^c (1 - p)^{k}\binom{k + r -1}{r - 1}, $$ donde el parámetro $\lambda$ se sustituye ahora por $r$ y $p$ . Esto debería ser sencillo de implementar, pero estoy teniendo algunas dificultades con la interpretación y por eso tengo algunas preguntas con las que me gustaría que me ayudaras:

1. ¿Podemos limitarnos a establecer $p = \lambda$ en la distribución binomial negativa? En caso negativo, ¿por qué?

2. Suponiendo que podamos establecer $p = f(\lambda)$ donde $f$ es alguna función, ¿cómo podemos establecer correctamente $r$ (¿necesitamos $r$ utilizando conjuntos de datos anteriores)?

3. Es $r$ depende del número de acontecimientos que esperamos que se produzcan durante un proceso determinado?


Apéndice a la extracción de estimaciones para $r$ (y $p$ ):

Soy consciente de que si de hecho tuviéramos este problema al revés, y tuviéramos los recuentos de eventos para cada proceso, podríamos adoptar el estimador de máxima verosimilitud para $r$ y $p$ . Por supuesto, el estimador de máxima verosimilitud sólo existe para muestras en las que la varianza muestral es mayor que la media muestral, pero si éste fuera el caso podríamos establecer la función de verosimilitud para $N$ observaciones independientes idénticamente distribuidas $k_1, k_2, \ldots, k_{N}$ como: $$ L(r, p) = \prod_{i = 1}^{N}\P(k_i; r, p), $$ a partir de la cual podemos escribir la función log-verosimilitud como: $$ l(r, p) = \sum_{i = 1}^{N} \ln(\Gamma(k_i + r)) - \sum_{i = 1}^{N} \ln(k_{i}!) - N\ln(\Gamma(r)) + \sum_{i = 1}^{N} k_i \ln(p) + N r\ln(1 - p). $$ Para encontrar el máximo tomamos las derivadas parciales con respecto a $r$ y $p$ y ponerlos a cero: \begin{align*} \partial_{r} l(r, p) &= \sum_{i = 1}^{N} \psi(k_i + r) - N\psi(r) + N\ln(1 - p), \\ \partial_{p} l(r, p) &= \sum_{i = 1}^{N} k_i\frac{1}{p} - N r \frac{1}{1 - p} \enspace . \end{align*} Configuración $\partial_{r} l(r, p) = \partial_{p} l(r, p) = 0$ y ajuste $p = \displaystyle\sum_{i = 1}^{N} \displaystyle\frac{k_i} {(N r + \sum_{i = 1}^{N} k_i)},$ encontramos: $$ \partial_{r} l(r, p) = \sum_{i = 1}^{N} \psi(k_i + r) - N \psi(r) + N\ln\left(\frac{r}{r + \sum_{i = 1}^{N} \frac{k_i}{N}}\right) = 0. $$ Esta ecuación no puede resolverse para r de forma cerrada utilizando Newton o incluso EM. Sin embargo, este no es el caso en esta situación. Aunque podría utilizar los datos anteriores para obtener una $r$ y $p$ esto no es realmente de ninguna utilidad ya que para nuestro proceso, necesitamos adaptar estos parámetros en el tiempo, como hicimos usando Poisson.

1voto

Alon Navon Puntos 428

La distribución binomial negativa es muy similar al modelo de probabilidad binomial. Es aplicable cuando se cumplen los siguientes supuestos (condiciones) 1)Cualquier experimento se realiza en las mismas condiciones hasta alcanzar un número fijo de aciertos, digamos C 2)El resultado de cada experimento se puede clasificar en una de las dos categorías, éxito o fracaso 3)La probabilidad P de éxito es la misma para cada experimento 40Cada experimento es independiente de los demás. La primera condición es el único factor clave que diferencia la binomial de la binomial negativa.

0voto

Alon Navon Puntos 428

La distribución poisson puede ser una aproximación razonable de la binomial bajo ciertas condiciones como 1)La probabilidad de éxito de cada ensayo es muy pequeña. P-->0 2)np=m(digamos) es finete La regla más utilizada por los estadísticos es que la poisson es una buena aproximación de la binomial cuando n es igual o superior a 20 y p es igual o inferior al 5%.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X