Los problemas surgen con la idea de "pequeñas" cantidades de no normalidad y "cierta" autocorrelación. Hasta que no esté claro cómo operacionalizarlos, no queda más remedio que realizar pruebas de normalidad (no de casi normalidad). Como usted insinúa, existe una gran diferencia conceptual entre una prueba insensible de normalidad y una prueba sensible de casi normalidad. Puedes utilizar la primera como la segunda, pero probablemente no será del todo correcta y se comportará de forma diferente en distintos límites. Me parece que se puede proceder de dos maneras:
Las pruebas generales de normalidad no permiten controlar qué aspectos de la no normalidad deben tratarse como más graves que otros. Entonces, ¿puede definir qué aspecto de la normalidad es realmente importante? Si le preocupan más, por ejemplo colas gordas o sesgo, puede comprobarlos por separado. Del mismo modo, si estima la autocorrelación de primer orden, puede utilizar el intervalo de confianza de ese parámetro para determinar cuánto es "demasiado". Pero aún tienes que decidir cuál es el orden correcto (@Jason O. Jensen supone que es uno, pero eso dependerá del proceso de generación) y si confías en la prueba. Si no recuerdo mal, el tamaño de las distintas pruebas de normalidad (por ejemplo, KS y Shapiro-Wilks) varía con la autocorrelación de nivel, a veces incluso dependiendo de su signo. Y esto además de la variación de su potencia con respecto a varias alternativas...
En segundo lugar, dices que tú mismo generas los datos. Me imagino que, o bien estás probando algún tipo de generador de números aleatorios, o bien te estás preguntando si algo ha alcanzado una distribución asintóticamente normal. En el primer caso, probablemente tengas alguna idea de lo que puede estar mal, así que puedes probarlo, como se sugiere más arriba. En el segundo caso, tengo menos intuición. Es probable que la literatura sobre convergencia MCMC tenga algo útil que decir sobre este caso.