Estimación del parámetro de la distribución exponencial con datos desechados

Question

Estimación del parámetro de la distribución exponencial con datos desechados

Preguntado el 20 de Junio, 2016: Cuando se hizo la pregunta
214 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Tengo los siguientes datos, que pueden ser modelados por la distribución exponencial

Time        0-20  20-40    40-60  60-90   90-120    120-inf
Frequency   41     19       16      13        9        2

Para probar si los datos siguen la distribución exponencial se utilizo estadística de prueba ji-cuadrada. Pero para ello necesito calcular lambda ($MLE = \frac{1}{\bar X}$).

Mi pregunta es: ¿Cómo debemos escoger el punto medio del intervalo, si el último intervalo es desde 120 hasta el infinito?

Preguntado el 20 de Junio, 2016 por Tim Norwood

Answer 1

2 Respuestas

Answer 2

10voto

AdamSane Puntos 1825

Yo no usaría el punto medio de cualquiera de los intervalos (esperar tal vez como una estimación inicial para algún procedimiento iterativo).

Si los datos fueran realmente de una distribución exponencial, los valores dentro de cada grupo debe ser derecho de sesgo; la media se espera que esté a la izquierda de la media de la papelera de límites.

Tenga en cuenta que la ecuación de $\hat{\lambda}=\frac{1}{\bar{X}}$ es conveniente si usted tiene todos los datos. Con agrupada de los datos que usted necesita para maximizar la probabilidad de que un binned (es decir, intervalo de censura) exponencial.

[La contribución a la log-verosimilitud de la $n_i$ observaciones en el recipiente $i$ -- entre los $l_i$ $u_i$ - es $n_i \log(F(l_i)-F(u_i))$ (donde los dos términos en $F$ son funciones del parámetro(s) de la distribución).]

Debido a la falta de propiedad de la memoria de la exponencial, si usted tiene una buena aproximación de la media de la exponencial también se tiene una buena aproximación de la cantidad por la que la media de la distribución por encima de cierto valor $x_0$ supera $x_0$.

Así (suponiendo que no directamente maximizar la probabilidad de* en el intervalo de datos censurados como ya he sugerido), usted podría comenzar con algunos estimación aproximada de la media ($m^{(0)}$ dicen) y el uso de $120+m^{(0)}$ como un "centro" de la parte superior de la cola.

Esto podría entonces ser utilizado para obtener una mejor estimación de los parámetros (y por tanto de la media) y así obtener una mejor estimación de la media condicional en cada bin, incluyendo la parte superior. [Si quieres un enfoque que tal vez se inclinan por hacer EM directamente.]

Varias simple de las estimaciones de la media puede obtenerse rápidamente. Por ejemplo, ya que el 41% de los valores se producen por debajo de 20, $\exp(-\frac{20}{\hat{\lambda}^{(0)}})=1-0.41$ que corresponde a una estimación de la media de cerca de $38$. Alternativamente, uno puede obtener una rápida globo ocular estimación de la mediana (algo menos de 30, tal vez de unos 28), por lo que la media debe estar en algún lugar cerca de $28/\log(2)$, o alrededor de $40$.

Cualquiera de estos sería razonable para el uso como una estimación inicial a lo lejos por encima de los 120 a cabo una estimación para la media condicional para el último bin.

* Una alternativa para maximizar la probabilidad sería reducir al mínimo el estadístico de chi-cuadrado; el mismo ajuste a d.f. sería utilizado en esa instancia. El estadístico de chi-cuadrado es relativamente fácil de calcular, y bastante simple para optimizar para un único parámetro:

Respondido el 20 de Junio, 2016 por AdamSane (1825 Puntos )

Answer 3

9voto

heropup Puntos 2278

Desde un punto de vista teórico, la probabilidad de la muestra que obtuvo se escribiría como $$\mathcal L(\lambda \mid \boldsymbol x) = \prod_{j=1}^m (e^{-\lambda x_{j-1}} - e^{-\lambda x_{j}})^{n_j},$$ where $(x_0, x_1, \ldots, x_m) $ are the bin boundaries (assuming that each bin represents the probability of observing $% icadas {j-1} < X \le x_j $), and $ n_j $ is the number of observations in bin $j $. Here, you have $m = 6 $ bins, with $(x_0, x_1, \ldots, x_m) = (0, 20, 40, 60, 90, 120, \infty)$, and $ (n_1, \ldots, n_m) = (41, 19, 16, 13, 9, 2) $. In general, maximizing the log-likelihood of this expression will need a numerical approach. Using Mathematica, I obtained the derivative of the log-likelihood as $$\frac{\partial \ell}{\partial \lambda} = \frac{760}{\sinh 10 \lambda +\sinh 20 \lambda} + 1090 \coth 15 \lambda - 3940.$$ This yields the numeric solution $% $$\hat\lambda \approx 0.025562426096803193.$

Respondido el 20 de Junio, 2016 por heropup (2278 Puntos )

Estimación del parámetro de la distribución exponencial con datos desechados

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Estimación del parámetro de la distribución exponencial con datos desechados

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: