8 votos

Adaptacion parametrica CDF a ecdf

Hay una variable aleatoria $X$, pero los únicos datos que he observado es en realidad su función de distribución empírica (en una adecuada rejilla fina). Es decir, yo sólo observar $\hat{F}(x)$:=$\#\{x\leq u\}\over N $ para múltiples $u$'s, donde el tamaño de la muestra N es fijo, pero desconocido, y el $u$'s son convenientemente finamente espaciados.

Sospecho $X$ proviene de una paramétrico distritbution $F_X(x;\alpha,\beta,\mu)$, por lo que quiero para estimar los parámetros de $\alpha,\beta,\mu$. La manera natural en que puedo pensar es minimizar algún criterio, digamos, MSE, entre el$\hat{F}$$F_X$.

Tengo dos preguntas:

  1. Además de MSE, es allí cualquier otro criterio a utilizar? (por ejemplo, algún tipo de información empírica versión de Kullback Leibler Divergencia?)
  2. Hay un enfoque totalmente diferente para esta estimación pregunta? Hay literatura de ajuste paramétrico cdf a través de ecdf que necesito saber?

4voto

AdamSane Puntos 1825

Yo no uso el MSE, simplemente porque $\hat{F}$ no tiene varianza constante. Si usted utiliza un promedio ponderado de MSE que debe hacer mejor las cosas ... pero, a continuación, $\hat{F}_i$ $\hat{F}_j$ no son independientes, ya sea.

Una posibilidad si usted está tratando de hacer $\hat F$ cerca de $F$ en un MSE-como sentido posible es que usted podría tratar de minimizar la de Anderson-Darling estadística (ya que es como un peso preciso MSE).

Para ser honesto, yo estaría inclinado a usar verosimilitud para estimar los parámetros, si fuese posible-pero no en la ECDF; usted quiere tratar con los datos y la construcción de la probabilidad (es decir, mirar los valores de los datos y $f$, no$F$$\hat{F}$) si la diferencia de nuevo a lo que en esencia es un histograma$^\dagger$ usted debería ser capaz de obtener una buena ML estimaciones* a partir de eso.

enter image description here

$\hspace{3cm}\to$ 4 5 5 5 6 6 6 7 7 7 7 8 9 9 9 9 9 9 ...

* (si algo aproximado debido a la discretización).

$\dagger$ - En el caso de que no es obvio cómo se obtiene el tamaño de la muestra en el caso de que usted sólo tiene un ecdf y no $n$, déjame ser explícito acerca de él. La situación en la que parecen estar tratando con (es decir, como "en una adecuada rejilla fina", sugiere) tenemos una finamente discretizado distribución continua, uno que podría razonablemente se sigue tratando como si fuera continua si sólo tuviéramos las observaciones.

Considere la posibilidad de que en cada punto de salto, el ecdf debe aumentar por algún múltiplo de $1/n$.

La probabilidad de que siempre aumentar por un múltiplo de $k/n$ ($2/n$ o $3/n$ dicen) en cada punto de salto sería extremadamente pequeña (algunos simples cálculos a mano o simulaciones hacer el punto lo suficientemente bien). Por lo que podemos - con una probabilidad muy cercana a 1 - inferir el exacto $n$ por la búsqueda de la mayor $1/n$ consistente con cada cambio en ecdf.

[Por otro lado, con una muestra muy pequeña en un muy rejilla gruesa, por lo que sólo unos pocos valores diferentes va a ocurrir, usted podría conseguir el aumento en cada punto de ser $2/n$ o quizás $3/n$ y así ejecutar en problemas, especialmente si usted desea errores estándar. Así que si sólo teníamos 4 bandejas y la cuenta en esos recipientes se 2,6,12,4, obtendríamos $n$ mal (sería como los saltos eran múltiplos de 1/12 en lugar de 1/24, por lo que pensamos la $n_i$ fueron 1,3,6,2), y así el estándar de los errores - y en algunos casos, hasta el punto de estimaciones - podría ser una manera justa y apagado. Afortunadamente, este no es el caso de esta pregunta.]

3voto

Bob Puntos 1593

Se le preguntó sobre literatura.

Si su modelo es una ley de potencia, log-normal, poisson o binomial usted debe verificar el trabajo de Clauset et al. "PowerLaw Distribución en Datos Empíricos" http://arxiv.org/pdf/0706.1062.pdf Ellos describen cómo hacerlo por bootstraping, la realización se ajusta a la ecdf de los datos reales y los datos generados. Usted debe ser cauteloso cuando se utiliza este enfoque y siga el procedimiento descrito en detalle en este documento.

Una cosa importante a recordar es que usted nunca demostrar que los datos siguen un modelo, sólo se puede refutar que seguir un modelo. p-valores de darle la cercanía de los datos y el modelo, pero solo se puede con cuidado, hacer conclusiones al realizar la misma prueba con otros modelos que podrían explicar los datos.

Los autores de este trabajo también proporcionan una biblioteca para realizar las pruebas de estos modelos (poweRlaw paquete en R), y la aplicación parcial en otros idiomas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X