6 votos

¿Qué distribución ajustar si el logaritmo del logaritmo sigue siendo convexo?

Estoy tratando de ajustar un modelo con la variable x, e y. plot(x, y) muestra que es convexo (hacia abajo) y que decae, lo que me hace pensar que tengo que hacer una transformación logarítmica de y, pero plot(x, log(y)) sigue siendo convexo, incluso más plot(x, log(log(y))) , plot(x, log(log(log(y)))) también son convexos, ¿qué tipo de modelo debo ajustar a esto?

¿De dónde proceden mis datos?

Digamos que tengo una característica que toma sólo un valor entero desde 1 hasta algún int grande aquí, me gustaría ver qué distribución sigue esta característica, así que hago un simple recuento de la característica, CatX sería el valor de la característica, 1,2,3, etc. CntY sería el número de veces que el valor aparece en mis datos:

¿Se ajusta al modelo?

Estoy intentando comprender la distribución subyacente de mi característica, pero tengo conocimientos estadísticos muy aproximados, así que ¿a qué distribución debería pertenecer?

Esta es una trama directa de CntY ~ CatX :

CntY ~ CntX

Esta es una parcela de log(log(log(CntY))) ~ CatX :

enter image description here

0 votos

¿Cuál es su objetivo como modelo? ¿Y puede publicar un gráfico de los datos?

0 votos

@ssdecontrol Acabo de añadir dos gráficos para mostrar lo que quiero decir.

0 votos

Alguna descripción de sus datos sería útil. No hay nada en su gráfico, por ejemplo, que descarte la interpretación de que "X" no es una variable en absoluto y que simplemente ha trazado los valores de $Y$ en orden descendente (aunque me pregunto por las pequeñas manchas cerca de $X=72$ y $X=96$ ). Por favor, entonces, explique qué quiere decir con "ajustar un modelo".

7voto

jldugger Puntos 7490

Es plausible que estos datos sigan una Distribución de Zipf.

Aquí, para comparar, hay datos aleatorios generados según una distribución de Zipf (ley de potencia) con una potencia cercana a $-1.4$ y trazado como en la pregunta y la discusión enlazada. He ajustado la potencia y las frecuencias totales para que coincidan con las cifras de la pregunta; la coincidencia es bastante buena en el gráfico bruto de las frecuencias ordenadas (a la izquierda) y en el gráfico logarítmico (sin título) (segundo desde la izquierda).

Figures

Una buena manera de analizar los datos con este aspecto es mostrar la frecuencia frente al rango en los ejes logarítmicos, como se muestra en el "Gráfico de Zipf" de arriba. Incluso si resulta que estos datos no tienen una distribución Zipf, una comparación con una distribución Zipf (como se muestra en el gráfico "Observado vs. Ajustado" a la derecha) es probable que sea informativa.

Se puede obtener más información sobre estas cifras en el R código utilizado para generarlos.

x <- 1:100
Y <- exp(19.5 - 1.392 * log(x))
Y <- round(Y + rnorm(length(Y), sqrt(Y)))

par(mfrow=c(1,4))
plot(x,Y,pch=19, main="Ordered Frequencies")
abline(h=seq(5e7, 3e8, by=5e7), col="Gray")
abline(v=seq(0, 100, by=25), col="Gray")

plot(x, log(log(log(Y))), pch=19)
abline(h=seq(0.925, 1.10, by=0.025), col="Gray")
abline(v=seq(0, 100, by=25), col="Gray")

plot(x, Y, log="xy", main="Zipf Plot")
beta.hat <- coef(lm(log(Y) ~ I(log(x))))
curve(exp(beta.hat[1]+beta.hat[2]*log(x)), add=TRUE, col="Red")

H <- sum(Y)/sum(x^(beta.hat[2]))
plot(H*x^(beta.hat[2]), Y, log="xy",
     ylab="Observed Frequency", xlab="Fitted Frequency",
     main="Observed vs. Fit")
abline(c(0,1), col="Red")

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X