Tengo datos del total de entradas vendidas de un solo cine a nivel diario. Son datos diarios de 2 años para cada fecha de exhibición. Hice la prueba de Anderson-Darling utilizando ad.test() en el paquete nortest en R y los resultados fueron significativos, lo que significa que no es una distribución normal según este tutorial . ¿Es un binomio por casualidad? ¿O qué es?
Este es el gráfico de densidad
Este es un simple gráfico de datos utilizando la función qplot del paquete ggplot en R
¿Puede alguien sugerir qué distribución tiene esta variable? A simple vista, el segundo y tercer gráfico parecen una distribución sesgada a la derecha. Quiero usar esto para la regresión y quiero estar seguro de la distribución para poder seguir adelante.
Editar: Encontré un paquete R fitdistrplus y utilicé fitdist() para probar diferentes distribuciones. A continuación se muestra cómo qqplot parece en cada distribución y por debajo de los valores aic
library(fitdistrplus)
#gamma distribution
fit.fg <- fitdist(data$Tot_ticket_sold, "gamma")
#log normal
fit.fln <- fitdist(data$Tot_ticket_sold, "lnorm")
#weibull
fit.fw <- fitdist(data$Tot_ticket_sold, "weibull")
#normal
fit.fn <- fitdist(data$Tot_ticket_sold, "norm")
compruebe el qqplot y la densidad emperática y teórica para ver qué se ajusta mejor
plot(fit.fg)
plot(fit.fln)
plot(fit.fw)
plot(fit.fn)
encontrar el aic más bajo
> fit.fg$aic
[1] 656590.6
> fit.fln$aic
[1] 664127.3
> fit.fw$aic
[1] 656753.2
> fit.fn$aic
[1] 691545.8
Parece una distribución gamma.