Tengo algunos hallazgos preliminares que son un poco extraños.
Tengo un par de conjuntos de datos relacionados que son pequeños (~150) muestras de números enteros positivos y que parecen bastante extraños. Como son pequeños, no me tomo en serio sus histogramas, así que he realizado Estimación de la densidad del núcleo gaussiano en ambos. (Aunque no he sido tan cuidadoso con la selección del ancho de banda, al menos lo he tenido en cuenta y dudo que sea un problema importante en el contexto actual, pero podría estar equivocado).
Lo extraño es esto: en ambos casos, obtengo un ajuste notablemente bueno a una distribución de Cauchy (lo he hecho a mano, sin cosas de MLE en este caso*, pero he corroborado los ajustes mirando gráficos normales y log-log) que está centrado en un número positivo (es decir, el KDE básicamente se parece a este ). Pero como he dicho, las muestras son (y deben ser) enteras positivas, por lo que el soporte de la distribución es el mismo. Por otro lado, la distribución de Cauchy se ajusta muy bien a la región positiva.
Lo único que puedo imaginar que produzca algo así, además de un error por mi parte, es que estas muestras puedan admitir algún tipo de interpretación de sumas de IIDRVs y eso lleve a la aparente cauchicidad debida a el CLT generalizado .
¿Qué puede causar esto? Las explicaciones de los errores son especialmente bienvenidas. Sin embargo, tenga en cuenta mis dudas sobre el ancho de banda del kernel sea un problema.
*Sin embargo, he probado los ajustes MLE a algunas otras distribuciones comunes (por ejemplo, gamma) y estos son terribles, especialmente en comparación.