7 votos

¿Es un enfoque razonable para montaje distribuciones?

Tome la tarea de ajustar un a priori de la distribución como el ex-Gaussiana a una colección de humano observado tiempos de respuesta (RT). Es un método para calcular la suma de registro de probabilidad de cada observó RT dado un conjunto de candidatos de los ex-Gaussiana parámetros, a continuación, intente encontrar el conjunto de parámetros que maximiza la suma de registro de probabilidad. Me pregunto si este enfoque alternativo podría ser también razonable:

  1. Seleccione un conjunto de equidistante cuantil probabilidades, por ejemplo:

    qps = seq( .1 , .9 , .1 )
    
  2. Para un conjunto dado de candidato ex-Gaussiana parámetros de la estimación de la cuantil RT valores correspondientes a qps, por ejemplo:

    sim_dat = rnorm( 1e5 , mu , sigma ) + rexp( 1e5 , 1/tau )
    qrt = quantile( sim_dat , prob = qps )
    
  3. Para cada secuencial intervalo entre el así generado cuantil RT valores, contar el número de observaciones que caen dentro de ese intervalo, por ejemplo:

    obs_counts = rep( NA , length(qrt)-1 )
    for( i in 1:(length(qrt)-1) ){
        obs_counts[i] = length( obs_rt[ (obs_rt>qrt[i]) & (obs_rt<=qrt[i+1]) ] )
    }
    
  4. Comparar estos observado cuenta a la espera de cuenta:

    exp_counts = diff(range(qps)) * diff(qps)[1] * length(obs_rt)
    chi_sq = sum( (( obs_counts - exp_counts )^2 )/exp_counts )
    
  5. Repita los pasos 2 a 4, la búsqueda de candidatos para los valores de parámetro que minimizar chi_sq.

Es este enfoque una alternativa razonable a la más estándar de la estimación de máxima verosimilitud procedimiento? ¿Este enfoque ya tiene un nombre?

Tenga en cuenta que yo uso el ejemplo de un ex-Gaussiana puramente para fines ilustrativos; en la práctica, estoy jugando con el enfoque anterior en un lugar más complicado contexto (por ejemplo, ajuste los datos a un modelo estocástico que genera múltiples distribuciones, cada una con un número diferente de espera de observación de la cuenta). El propósito de esta pregunta es determinar si la he re-inventado la rueda, así como si cualquier persona puede escoger cualquier problemática de las características del método.

6voto

Alan Puntos 7273

Lo que usted propone es llamado cuantil de coincidencia, aunque la forma en que usted se propone a hacer va a ser agotador. El ex-distribución de Gauss se puede encontrar en el paquete gamlss.dist con cuantiles como qexGAUS etc.; se utiliza nu donde se utiliza tau.

Una similar cuantil método de coincidencia puede ser utilizado en la función fitdist en el paquete fitdistrplus uso de method="qme". El paquete se menciona en la respuesta vinculado por bill_080. Una diferencia es que sólo los partidos como muchos de cuantiles, ya que hay parámetros (tres en este caso).

El siguiente parece un trabajo más o menos: simula algunos puntos de datos de un determinado ex-distribución de Gauss y, a continuación, intenta estimar los parámetros a partir de los cuantiles de coincidencia y, a continuación, dibuja algunos gráficos. Se necesita una estimación aproximada de los parámetros de trabajo.

library(fitdistrplus)
library(gamlss.dist)

set.seed(1)
sim_size <- 1000
Gm <- 10 # mean of Gaussian   
Gs <- 2  # sd of Gaussian
Em <- 5  # mean of exponential
sim_dat <- rnorm( sim_size , Gm , Gs ) + rexp( sim_size , 1/Em )

fit_qme <- fitdist(sim_dat, "exGAUS", method="qme", 
                   start=c(mu=15, sigma=1, nu=3),
                   probs=c(0.2,0.5,0.8)               )
fit_qme
plot(fit_qme) 

En este ejemplo y con esta semilla, las estimaciones son

> fit_qme
Fitting of the distribution ' exGAUS ' by matching quantiles 
Parameters:
      estimate
mu    9.859207
sigma 1.753703
nu    5.049785

Por comparación, una estimación de máxima verosimilitud utilizando el método de la misma función podría ser algo como

fit_mle <- fitdist(sim_dat, "exGAUS", method="mle", 
                   start=c(mu=15, sigma=1, nu=3)      )

y producir algo como

> fit_mle
Fitting of the distribution ' exGAUS ' by maximum likelihood 
Parameters:
      estimate Std. Error
mu    9.938870  0.1656315
sigma 2.034017  0.1253632
nu    5.007996  0.2199171

6voto

jldugger Puntos 7490

Una problemática característica es que no puede ser un continuo de soluciones óptimas. En la mayoría de los valores de los cuantiles son funciones continuas de los parámetros. Cuando las distribuciones son continuos, casi no hay duda de que será positiva en los intervalos entre los valores de los datos. Suponga que la función objetivo es optimizado por un determinado valor del parámetro cuyo cuantiles no coincide exactamente con ninguno de los datos: es decir, que se encuentran en el interior de los intervalos determinados por la proximidad de los valores de datos. (Esta es una muy probable evento). A continuación, los pequeños cambios en el valor del parámetro mover los cuantiles ligeramente, a permanecer en los mismos intervalos, dejando por tanto el valor de chi-cuadrado sin cambios debido a que ninguno de los condes de cambios. Así, el procedimiento no seleccionar incluso en definitiva un conjunto de valores de parámetros!

Otra problemática es que este procedimiento aparentemente no proporciona ninguna forma de obtener errores de estimación de los parámetros.

Otro problema es que usted no sabe, incluso la más básica de las propiedades de este estimador, tales como su grado de sesgo.

0voto

Alp Puntos 446

Echa un vistazo en el QQ-Plot (debajo de mi respuesta) en el siguiente enlace:

Necesita ayuda para identificar una distribución por su histograma

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X