5 votos

Estimación de PDF de distribución continua desde (pocos) puntos de datos

¿Cuáles son algunos buenos, los métodos establecidos para la estimación de la función de densidad de probabilidad (denotado $f(x)$ a partir de ahora) de una distribución continua, dada una muestra de puntos de $x_1, \ldots, x_n$ extraer de él? Yo principalmente la necesidad de PDF para visualización de los efectos.

El enfoque ingenuo sería mediante un histograma, es decir, contar cuántos puntos se dividen en diferentes $[a,b)$ intervalos. Pero esto tiene varios problemas:

  • No nos da $f(\frac{a+b}{2})$, pero $\int_a^b f(x) \, dx$, que no es el mismo, y podría ser cualitativamente diferentes en una parcela (por ejemplo, para una distribución de Pareto se da una estimación de la PDF que es no una línea recta en log-log de la escala, esto es a lo que me refiero buscando cualitativamente diferentes).
  • De ella depende en gran medida de agrupamiento, que requieren de una cuidadosa selección de tamaño de un recipiente.
  • Dependiendo de la distribución, se puede requerir de un manual de selección de un no-uniforme bin tamaño para obtener algo razonablemente a futuro (por ejemplo, una distribución de Pareto requiere el aumento de las papeleras).

Principalmente estoy interesado en métodos establecidos (por favor, tenga en cuenta que no soy un estadístico, no tengo entrenamiento formal en esto, por lo que no puede saber acerca de lo obvio!), pero todas las ideas son bienvenidas también. E. g. sería la estimación de la CDF, a través de la clasificación de los puntos, entonces de alguna manera tomar la obra derivada? Pero entonces el problema se transforma en la estimación de la derivada de datos ruidosos que es de nuevo un problema difícil.

Necesito esto, principalmente, no para el ajuste de la PDF a alguna función, pero para la visualización de la misma.

EDIT: yo soy, en particular, interesados en las técnicas que funcionan bien para el largo de la cola de las distribuciones.

7voto

pkaeding Puntos 12935

Lo que usted está buscando es la estimación de la densidad del núcleo. Usted debe encontrar numerosos éxitos en una búsqueda en Internet para estos términos, y es incluso en Wikipedia por lo que debe empezar. Si tiene R a su disposición, la función density proporciona lo que necesita:

 histAndDensity<-function(x, ...)
{
  retval<-hist(x, freq=FALSE, ...)
  lines(density(x, na.rm=TRUE), col="red")
  invisible(retval)
}
 

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X