6 votos

¿Cómo verificar que los datos simulados se distribuyen normalmente?

Tengo un programa que genera distribuciones supuestamente normales y me gustaría probarlo. Tengo varias dudas; quizá los expertos de aquí me ayuden a separar lo esencial de lo no esencial y a responder a la mayoría de ellas.

  1. Busco una prueba sencilla, idealmente una que pueda implementar sin demasiados problemas.
  2. Puede haber correlación entre valores adyacentes. Algunas pruebas pueden no ser sensibles a este fallo si los datos tienen una distribución "normal".
  3. Idealmente, me gustaría permitir una (¡pequeña!) cantidad de no normalidad. La mayoría de las pruebas que he visto permiten que los datos ligeramente no normales pasen sólo porque se comprueba un pequeño número de valores (donde "pequeño" aún podría significar millones, dependiendo del tamaño de la desviación). Esto recuerda a esta pregunta sobre el valor de las pruebas de normalidad.

6voto

James Sutherland Puntos 2033

Los problemas surgen con la idea de "pequeñas" cantidades de no normalidad y "cierta" autocorrelación. Hasta que no esté claro cómo operacionalizarlos, no queda más remedio que realizar pruebas de normalidad (no de casi normalidad). Como usted insinúa, existe una gran diferencia conceptual entre una prueba insensible de normalidad y una prueba sensible de casi normalidad. Puedes utilizar la primera como la segunda, pero probablemente no será del todo correcta y se comportará de forma diferente en distintos límites. Me parece que se puede proceder de dos maneras:

Las pruebas generales de normalidad no permiten controlar qué aspectos de la no normalidad deben tratarse como más graves que otros. Entonces, ¿puede definir qué aspecto de la normalidad es realmente importante? Si le preocupan más, por ejemplo colas gordas o sesgo, puede comprobarlos por separado. Del mismo modo, si estima la autocorrelación de primer orden, puede utilizar el intervalo de confianza de ese parámetro para determinar cuánto es "demasiado". Pero aún tienes que decidir cuál es el orden correcto (@Jason O. Jensen supone que es uno, pero eso dependerá del proceso de generación) y si confías en la prueba. Si no recuerdo mal, el tamaño de las distintas pruebas de normalidad (por ejemplo, KS y Shapiro-Wilks) varía con la autocorrelación de nivel, a veces incluso dependiendo de su signo. Y esto además de la variación de su potencia con respecto a varias alternativas...

En segundo lugar, dices que tú mismo generas los datos. Me imagino que, o bien estás probando algún tipo de generador de números aleatorios, o bien te estás preguntando si algo ha alcanzado una distribución asintóticamente normal. En el primer caso, probablemente tengas alguna idea de lo que puede estar mal, así que puedes probarlo, como se sugiere más arriba. En el segundo caso, tengo menos intuición. Es probable que la literatura sobre convergencia MCMC tenga algo útil que decir sobre este caso.

2voto

Mahmoud Mahfouz Puntos 11

Si el punto dos es lo que más le preocupa, podría "retrasar" los datos una observación y luego hacer una regresión de los datos "brutos" sobre los datos "retrasados". Haga esto para un retardo en cada sentido y decida, basándose en el valor p, si los datos son suficientemente aleatorios.

2voto

phloopy Puntos 4285

Otra sugerencia sería calcular el Divergencia de Kullback-Leiber o Distancia Hellinger entre los datos generados y la distribución normal. Esto te da una medida de lo no normales que son tus datos (y es de esperar que puedas determinar lo que es una pequeña desviación de la normalidad).

1voto

Eero Puntos 1612

La mejor prueba que se me ocurre para la casi normalidad es la prueba visual en:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

En vis.test en la función TeachingDemos para R implementa variaciones de esta prueba. Esto supone que usted confía en que el generador normal aleatorio de R es lo suficientemente bueno para la comparación o que usted tiene otra fuente de normal suficiente para la comparación. Esta prueba no puede ser automatizada, pero es bastante sencilla y se ajusta a las ideas anteriores (y usted podría encontrar una manera de ver la autocorrelación también si lo desea).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X