10 votos

Estimación rápida de la densidad

Supongamos que usted está tratando de estimar el pdf de una variable aleatoria $X$, por lo que hay un montón de me.yo.d. las muestras de $\{X_i\}_{i=1}^{n}$ ($n$ es muy grande, pensar en miles de millones).

Una opción es estimar la media y la varianza, y simplemente asumir que es Gaussiano.

En el otro extremo, uno puede tomar núcleo estimaciones de densidad, para obtener algo más preciso (especialmente cuando hay tantos datos).

El problema es, que necesito para evaluar el pdf resultante muy, muy rápido. Si asumimos que el pdf es Gaussiano, a continuación, evaluar el pdf $f_X(x)$ es muy rápido, pero la estimación podría no ser exacta. Por otro lado, las estimaciones de densidad de kernel va a ser demasiado lento para su uso.

Así que la pregunta es: ¿cuáles son las formas más comunes para obtener pdf estima que son más generales que Gaussianas, pero en un incremento de la moda? Idealmente, me gustaría tener un modelo con un número de parámetros (es decir $k$), que puede ser utilizado para el trade-off precisión de la estimación y la evaluación de la velocidad.

Las posibles direcciones que he pensado son:

  1. La estimación de los momentos de la distribución, y encontrar los pdf basado en estos momentos de soledad. $k$ aquí es el número de momentos. Pero entonces, ¿cuál es el modelo para el pdf basado en el modelo?

  2. Gauss mezclas con $k'$ mezclas (aquí $k=3k'-1$ ya que para cada elemento de la mezcla mantenemos la media, la varianza y el peso, y la suma de los pesos de a uno). Es esta una buena idea?

Otras ideas son bienvenidas.

Gracias!

Preguntas relacionadas: estimación ML;

Actualización / aclaración:

Gracias por todas las respuestas hasta el momento.

Realmente necesito el pdf (no el cdf, y no a la muestra de esta distribución). Específicamente, estoy usando el escalar pdf estimaciones para Naive Bayes (NB) de clasificación y regresión: dada la etiqueta, cada una de las características que tiene un pdf, y el NB asunción dice que son independientes. Así que para calcular la parte posterior (la probabilidad de que la etiqueta dada la característica de los valores) necesito los diferentes archivos pdf que se evalúa en la característica que se observa en los valores.

5voto

AdamSane Puntos 1825

En el caso univariante, una aproximación rápida: Usted puede tomar un número moderado de contenedores (en el caso univariante, decir algo del orden de mil, aunque depende de tu ancho de banda que necesita el ancho de banda para cubrir un montón de contenedores) y discretizar los puntos para el reciclaje-centros; sólo la escala de cada núcleo-la contribución por parte de los respectivos bin-conde. (Este tipo de enfoque no es realmente adecuado en alto dimensiones)

Otro enfoque es sólo evaluar el kernel en un número limitado de posiciones y el uso de alguna forma de una interpolación suave entre ellos.

Usted podría tratar de registro-spline estimación de densidad supongo, pero no puede ser más rápido.

Para multivariante estimación de densidad, usted puede mirar en el Ayuno de Gauss Transformar, véase, por ejemplo, aquí.

2voto

wolfies Puntos 2399

OP observa que la muestra momentos se puede calcular la rapidez suficiente para sus necesidades, y sugiere:

La estimación de los momentos de la distribución, y encontrar los pdf basado en estos momentos de soledad

Esto se puede hacer con Pearson instalación sólo requiere que los 4 primeros momentos. Pero, asumen que sus datos es unimodal y ... para ser útil y robusto ... que la curtosis etc no es demasiado grande. Véase, por ejemplo, en el capítulo 5 de nuestro libro, Rosa/Smith(2002 - free download):

http://www.mathstatica.com/book/bookcontents.html

La 'entrada' es la primera de 4 momentos \begin{align} f_n g_n &= (f_{n-1} + a_n t^n) (g_{n-1} + b_n t^n) & \pmod {t^{n+1}} \\ &= 100 + t + t^n (c_n + a_n g_{n-1}(0) + b_n f_{n-1}(0)) & \pmod{ t^{n+1}} \\ &= 100 + t + t^n (c_n + 4 a_n + 25 b_n ) & \pmod{ t^{n+1}} \endel pdf se deriva entonces de esos momentos, donde las formas funcionales están ya resueltos simbólicamente, por lo que el pdf resultante se calcula de manera efectiva en forma instantánea.

Creo que la pregunta sería mejor define si el OP se especifican:

  1. ¿Qué tan bien un ajuste Gaussiano de trabajo?
  2. ¿Qué hace la estimación de densidad de kernel? ¿Por qué no incluir una parcela?
  3. ¿La distribución de cambiar de forma? Si es así, por favor proporcione algunos ejemplos.

0voto

ctrl-alt-dileep Puntos 141

Es sub-muestreo no es una opción aquí? Si ya has comenzado a considerar el uso de momentos y formas paramétricas, entonces probablemente no es necesario buscar en todos los millones(s) de observaciones. Para relativamente simple paramétrica de las distribuciones (por ejemplo, Gauss), cientos de observaciones es probable que suficiente.

El pleno de la respuesta dependerá en gran parte de abajo utilizar, también. Va a ser en busca de, para, posteriormente, la muestra de los nuevos valores de este desconocido distribución? Si es así, el ecdf método en R se mencionó anteriormente funciona muy bien, aunque a partir de una muestra subconjunto de los datos originales.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X