9 votos

Estimación del parámetro de la distribución exponencial con datos desechados

Tengo los siguientes datos, que pueden ser modelados por la distribución exponencial

Time        0-20  20-40    40-60  60-90   90-120    120-inf
Frequency   41     19       16      13        9        2

Para probar si los datos siguen la distribución exponencial se utilizo estadística de prueba ji-cuadrada. Pero para ello necesito calcular lambda ($MLE = \frac{1}{\bar X}$).

Mi pregunta es: ¿Cómo debemos escoger el punto medio del intervalo, si el último intervalo es desde 120 hasta el infinito?

10voto

AdamSane Puntos 1825

Yo no usaría el punto medio de cualquiera de los intervalos (esperar tal vez como una estimación inicial para algún procedimiento iterativo).

Si los datos fueran realmente de una distribución exponencial, los valores dentro de cada grupo debe ser derecho de sesgo; la media se espera que esté a la izquierda de la media de la papelera de límites.

Tenga en cuenta que la ecuación de $\hat{\lambda}=\frac{1}{\bar{X}}$ es conveniente si usted tiene todos los datos. Con agrupada de los datos que usted necesita para maximizar la probabilidad de que un binned (es decir, intervalo de censura) exponencial.

[La contribución a la log-verosimilitud de la $n_i$ observaciones en el recipiente $i$ -- entre los $l_i$ $u_i$ - es $n_i \log(F(l_i)-F(u_i))$ (donde los dos términos en $F$ son funciones del parámetro(s) de la distribución).]

Debido a la falta de propiedad de la memoria de la exponencial, si usted tiene una buena aproximación de la media de la exponencial también se tiene una buena aproximación de la cantidad por la que la media de la distribución por encima de cierto valor $x_0$ supera $x_0$.

Así (suponiendo que no directamente maximizar la probabilidad de* en el intervalo de datos censurados como ya he sugerido), usted podría comenzar con algunos estimación aproximada de la media ($m^{(0)}$ dicen) y el uso de $120+m^{(0)}$ como un "centro" de la parte superior de la cola.

Esto podría entonces ser utilizado para obtener una mejor estimación de los parámetros (y por tanto de la media) y así obtener una mejor estimación de la media condicional en cada bin, incluyendo la parte superior. [Si quieres un enfoque que tal vez se inclinan por hacer EM directamente.]

Varias simple de las estimaciones de la media puede obtenerse rápidamente. Por ejemplo, ya que el 41% de los valores se producen por debajo de 20, $\exp(-\frac{20}{\hat{\lambda}^{(0)}})=1-0.41$ que corresponde a una estimación de la media de cerca de $38$. Alternativamente, uno puede obtener una rápida globo ocular estimación de la mediana (algo menos de 30, tal vez de unos 28), por lo que la media debe estar en algún lugar cerca de $28/\log(2)$, o alrededor de $40$.

Cualquiera de estos sería razonable para el uso como una estimación inicial a lo lejos por encima de los 120 a cabo una estimación para la media condicional para el último bin.

* Una alternativa para maximizar la probabilidad sería reducir al mínimo el estadístico de chi-cuadrado; el mismo ajuste a d.f. sería utilizado en esa instancia. El estadístico de chi-cuadrado es relativamente fácil de calcular, y bastante simple para optimizar para un único parámetro:
enter image description here

9voto

heropup Puntos 2278

Desde un punto de vista teórico, la probabilidad de la muestra que obtuvo se escribiría como $$\mathcal L(\lambda \mid \boldsymbol x) = \prod_{j=1}^m (e^{-\lambda x_{j-1}} - e^{-\lambda x_{j}})^{n_j},$$ where $(x_0, x_1, \ldots, x_m) $ are the bin boundaries (assuming that each bin represents the probability of observing $% icadas {j-1} < X \le x_j $), and $ n_j $ is the number of observations in bin $j $. Here, you have $m = 6 $ bins, with $(x_0, x_1, \ldots, x_m) = (0, 20, 40, 60, 90, 120, \infty)$, and $ (n_1, \ldots, n_m) = (41, 19, 16, 13, 9, 2) $. In general, maximizing the log-likelihood of this expression will need a numerical approach. Using Mathematica, I obtained the derivative of the log-likelihood as $$\frac{\partial \ell}{\partial \lambda} = \frac{760}{\sinh 10 \lambda +\sinh 20 \lambda} + 1090 \coth 15 \lambda - 3940.$$ This yields the numeric solution $% $$\hat\lambda \approx 0.025562426096803193.$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X