Estoy buscando en la muestra curtosis de una bastante sesgada variable aleatoria, y los resultados parecen incompatibles. Simplemente para ilustrar el problema, he mirado la muestra curtosis de una log-normal de RV. En R (de la cual estoy aprendiendo poco a poco):
library(moments);
samp_size = 2048;
n_trial = 4096;
kvals <- rep(NA,1,n_trial); #preallocate
for (iii in 1:n_trial) {
kvals[iii] <- kurtosis(exp(rnorm(samp_size)));
}
print(summary(kvals));
El resumen de lo que me sale es
Min. 1st Qu. Median Mean 3rd Qu. Max.
11.87 28.66 39.32 59.17 61.70 1302.00
De acuerdo a Wikipedia, la curtosis de este log-normal RV debe ser de alrededor de 114. Claramente la muestra curtosis es sesgada.
Hacer un poco de investigación he encontrado que la muestra curtosis es sesgada para tamaños de muestra pequeños. He utilizado el 'G2' estimador proporcionada por el e1071
paquete en CRAN, y obtuvo resultados muy similares para este tamaño de la muestra.
La pregunta: ¿cuál de los siguientes caracterizar lo que está pasando:
- El error estándar de la muestra curtosis es simplemente muy grande para este RV (aunque la mano-ondulados común estimación del error estándar es de orden $1/\sqrt{n}$). Alternativamente, la he usado muy pocas muestras (2048) en este estudio.
- Estas implementaciones de la muestra curtosis sufren de problemas numéricos que puedan ser corregidas por ejemplo, Terriberry del método (en mucho la misma manera que Welford del método da mejores resultados que el ingenuo método para la varianza de la muestra).
- He calculado la población de curtosis incorrectamente. (ouch)
- La muestra curtosis es intrínsecamente sesgada, y nunca se puede corregir por el tamaño pequeño de la muestra.