3 votos

R -Goodness of fit para la distribución t con parámetros estimados

Intento averiguar si mis datos se ajustan a una distribución t. Mi conjunto de datos es muy grande (más de 5000 datos) y he utilizado "fitdistr" (paquete MASS) para estimar la media, la sd y la df. Utilicé la prueba de Kolmogorov-Smirnov ("ks.test.t", paquete LambertW en R) para evaluar la bondad del ajuste, pero he leído que no debe utilizarse si los parámetros de mi distribución se han estimado a partir de la muestra.

En primer lugar, me preguntaba por qué la prueba KS no debería funcionar bien.

¿Existe una prueba, en R, para evaluar la bondad del ajuste con los parámetros estimados? Soy realmente un principiante en el uso de R, por lo que agradecería si me puede explicar paso a paso cómo hacerlo.

Gracias de antemano. =)

1voto

AdamSane Puntos 1825

La prueba de Kolmogorov-Smirnov está diseñada para situaciones en las que una distribución continua está totalmente especificada bajo la hipótesis nula.

Veamos qué ocurre con la distribución nula de la estadística de la prueba cuando la hipótesis nula es verdadera.

Cuando se estiman los parámetros, la estimación identifica los parámetros que hacen que la distribución estimada se acerque más a los datos que la distribución de la población.

Tomemos un ejemplo un poco más sencillo: el normal.

Aquí genero una muestra de 100 valores de un $N(50,5)$ (los puntos negros en la ECDF) y comparar con la función de distribución de la población (en azul) y la función de distribución ajustada (normal con la media y la varianza ajustadas a la media y la varianza de la muestra, mostradas en rojo):

ECDF of a sample of size 15 from a normal distribution, with population cdf and fitted normal cdf

KS statistic for population parameters: D = 0.19987  
KS statistic for fitted distribution:   D = 0.14715  

Esto es típico. Sin embargo, es posible que el estadístico sea mayor en la ajustada porque en realidad no ajustamos la distribución minimizando el estadístico KS; si estimáramos los parámetros de esa manera, la distribución normal ajustada tendría garantizado un estadístico de prueba menor.

Este "ajustado está más cerca de los datos que de la población" es lo mismo que resulta de dividir por $n-1$ en la varianza de la muestra (corrección de Bessel); aquí hace que la estadística de la prueba sea típicamente más pequeña de lo que debería ser.

Por lo tanto, si se ciñera a las tablas habituales, la tasa de error de tipo I sería menor de lo que usted eligió (con la correspondiente disminución de la potencia); su prueba no se comporta como usted quiere.

Puede que te guste leer sobre el test de Lilliefors (sobre el que hay muchos posts aquí). Lilliefors calculó (mediante simulación) la distribución de un estadístico de Kolmogorov-Smirnov sobre distribuciones ajustadas bajo condiciones normales (desconocidas $\mu$ , desconocido $\sigma$ y ambos parámetros desconocidos) y los casos exponenciales (1967,1969)

Una vez que se ajusta una distribución, la prueba deja de ser libre de distribución.

En el caso de que estés ajustando el parámetro de grados de libertad, no creo que el enfoque de Lilliefors funcione para la distribución t*; el consejo de utilizar el bootstrap puede ser razonable en muestras grandes.

* porque la distribución de la estadística de la prueba será diferente para diferentes df (sin embargo, puede ser que no varíe mucho con df en cuyo caso todavía se podría tener una prueba aproximada razonable)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X