5 votos

¿Debo encontrar este gran parámetro sospechoso?

Tengo algún tipo de desacuerdo con un groupmate. Tenemos algunos datos, y nos tiene que adaptarse a una loglogistic de distribución. Nuestro punto de datos más alto está a menos de 14,000,000. El promedio de nuestros datos es 231,316.865 y la desviación estándar es 1,118,713.553.

E utiliza Excel para estimar los parámetros de un loglogistic de distribución (a través de la MLE) y vino para arriba con shape=0.560983285656052, escala=4010.69503243576. Yo lo hice en R y se acercó con shape=1.667393, escala=8.294636.

He utilizado el test de Kolmogorov-Smirnov, y R no dio una razón para decir que el mío no era un buen ajuste.

ks.test(b, "pllog", shape=1.667393, scale=8.294636)
        One-sample Kolmogorov-Smirnov test
data:  b
D = 0.0377, **p-value = 0.8836**
alternative hypothesis: two-sided
Warning message:
In ks.test(b, "pllog", shape = 1.667393, scale = 8.294636) :
  ties should not be present for the Kolmogorov-Smirnov test

Como para h parámetros de...

ks.test(b, "pllog", shape=0.560983285656052, scale=4010.69503243576)
        One-sample Kolmogorov-Smirnov test
data:  b
D = 1, **p-value < 2.2e-16**
alternative hypothesis: two-sided
Warning message:
In ks.test(b, "pllog", shape = 0.560983285656052, scale = 4010.69503243576) :
  ties should not be present for the Kolmogorov-Smirnov test

Traté de simular valores y este lo tengo con la mía.

rllog(20, shape=1.667393, scale=8.294636)
 [1] 1.164583e+05 5.387827e+04 2.440876e+01 5.083744e+03 1.669974e+00
 [6] 1.125328e+05 3.781694e+02 5.572336e+04 2.352123e+03 4.060668e+03
[11] 2.597518e+02 1.068868e+02 4.695207e+03 7.780321e+03 5.787856e+03
[16] 2.196655e+04 2.933098e+04 1.253264e+06 1.196900e+03 5.399473e+02

Esto es lo que yo tengo uso de h parámetros. Yo aviso si puedo empezar a utilizar la escala=30, tengo los números de 13 dígitos.

rllog(20, shape=0.560983285656052, scale=4010.69503243576)
 [1] Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf Inf
[20] Inf

7voto

jasonmray Puntos 1303

Si $X$ tiene una distribución logística, con la ubicación del parámetro $\mu$ y el parámetro de escala de $\sigma$

$$\newcommand{\e}{\mathrm{e}}f(x) = \frac{\exp\left(\frac{x-\mu}{\sigma}\right)}{\sigma \left[1+ \exp\left(\frac{x-\mu}{\sigma}\right)\right]^2}$$

then $Y=\log(X)$ has a log-logistic distribution

$$f(y) = \frac{ \frac{\sigma^{-1}}{\e^\mu}\cdot \left(\frac{y}{\e^\mu}\right)^{\sigma^{-1}-1}}{\left[1 + \left(\frac{y}{\e^\mu}\right)^{\sigma^-1}\right]^2}$$

whose scale is not $\mu$ but $\e^\mu$. Though $\sigma$ might as well be called the shape, a common parametrization uses scale $\beta=\e^\mu$ & shape $\alpha=\sigma^{-1}$

$$f(y) = \frac{\frac{\alpha}{\beta}\cdot \left(\frac{y}{\beta}\right)^{\alpha-1}}{\left[1 + \left(\frac{y}{\beta}\right)^{\alpha}\right]^2}$$

You're certainly not reporting an estimate of scale, as that also estimates the distribution median & 8.29 seems far too low. If you're reporting $\hat\mu=8.294636$ and $\hat\sigma=1.667393$, then $\hat\alpha=0.59973$ & $\hat\beta=4002.3$; muy cercano a lo que su colega está informando.

El trazado de la probabilidad es siempre una buena idea. Aquí es a partir de una simulación de la muestra, pero puede utilizar la real:

contour plot of log-likelihoodwire-frame plot of log-likelihood

Usted puede ver de un vistazo si el máximo encontrado por un algoritmo es plausible.

Esto es más trabajo de detective de Estadísticas (que debería haber incluido los detalles en la pregunta), pero findFn (de la sos paquete) sugiere que el pllog función que está usando es de la FAdist paquete. La documentación es bastante vago:—

Si Y es una variable aleatoria distribuida según una logística distribución (con la ubicación y la escala de los parámetros), a continuación, $X = exp(Y)$ tiene un log-logística de distribución con la forma y la escala de los parámetros de correspondiente a la escala y la ubicación parameteres [sic] de Y, respectivamente.

"Correspondiente a" da la impresión de haber sido elegido para evitar "igual a", pero el código para pllog es

function (q, shape = 1, scale = 1, lower.tail = TRUE, log.p = FALSE) 
    {
        Fx <- plogis(log(q), location = scale, scale = shape)
        if (!lower.tail) 
        Fx <- 1 - Fx
        if (log.p) 
        Fx <- log(Fx)
        return(Fx)
    }

Así que si usted está utilizando la relativa dllog función de densidad de

function (x, shape = 1, scale = 1, log = FALSE) 
{
    fx <- dlogis(log(x), location = scale, scale = shape, log = FALSE)/x
    if (log) 
        return(log(fx))
    else return(fx)
}

para encontrar la máxima probabilidad será de hecho $\hat\mu$ & $\hat\sigma$ usted está llamando a "escala" y "forma". Más tenuemente, si tu colega es un usuario de Excel, él probablemente no tiene un manual de distribuciones sentado en su escritorio, y le he mirado el log-logística de distribución en Wikipedia, donde se parametrizadas con forma de $\alpha$ & escala de $\beta$. Misterio resuelto!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X