Estoy tratando de ajustar un modelo con la variable x, e y. plot(x, y)
muestra que es convexo (hacia abajo) y que decae, lo que me hace pensar que tengo que hacer una transformación logarítmica de y, pero plot(x, log(y))
sigue siendo convexo, incluso más plot(x, log(log(y)))
, plot(x, log(log(log(y))))
también son convexos, ¿qué tipo de modelo debo ajustar a esto?
¿De dónde proceden mis datos?
Digamos que tengo una característica que toma sólo un valor entero desde 1 hasta algún int grande aquí, me gustaría ver qué distribución sigue esta característica, así que hago un simple recuento de la característica, CatX sería el valor de la característica, 1,2,3, etc. CntY sería el número de veces que el valor aparece en mis datos:
¿Se ajusta al modelo?
Estoy intentando comprender la distribución subyacente de mi característica, pero tengo conocimientos estadísticos muy aproximados, así que ¿a qué distribución debería pertenecer?
Esta es una trama directa de CntY ~ CatX
:
Esta es una parcela de log(log(log(CntY))) ~ CatX
:
0 votos
¿Cuál es su objetivo como modelo? ¿Y puede publicar un gráfico de los datos?
0 votos
@ssdecontrol Acabo de añadir dos gráficos para mostrar lo que quiero decir.
0 votos
Alguna descripción de sus datos sería útil. No hay nada en su gráfico, por ejemplo, que descarte la interpretación de que "X" no es una variable en absoluto y que simplemente ha trazado los valores de $Y$ en orden descendente (aunque me pregunto por las pequeñas manchas cerca de $X=72$ y $X=96$ ). Por favor, entonces, explique qué quiere decir con "ajustar un modelo".
0 votos
@whuber Gracias por la respuesta. He añadido alguna explicación aquí, espero que tenga algún sentido. El caso real es que mis datos son grandes, así que hice alguna transformación antes de trazar.
X
son los valores reales que toma la característica y su naturaleza numérica, por lo que el gráfico no es por orden descendente de Y sino ascendente de X.1 votos
$X$ y $Y$ no son variables separadas. Estás preguntando sobre la modelización de la distribución de frecuencias de $X$ .
0 votos
@ssdecontrol Eso es correcto. Los hice como dos para comprimir el tamaño de los datos y poder visualizarlos y analizarlos en mi portátil.
1 votos
Parcela $y$ vs $x$ en los ejes logarítmicos, y luego leer sobre el Distribución de Zipf .
0 votos
@whuber Eso parece prometedor. Lo investigaré. Gracias.