Su conjunto de datos claramente no es normal. (Con esta cantidad de datos, cualquier prueba de bondad de ajuste te lo dirá). Pero puedes leer mucho más que eso en el gráfico de probabilidad normal:
-
La curvatura, en general suave, no hace pensar en una estructura de mezcla.
-
La cola superior está demasiado estirada (valores demasiado altos en comparación con la distribución de referencia).
-
La cola inferior está demasiado comprimida (los valores también son demasiado altos).
Esto sugiere que una leve Transformación Box-Cox producirá datos casi normales, o al menos simétricos. Para encontrarla, considere algunos valores clave en este gráfico: la mediana, que se encuentra por encima del valor x de 0, es aproximadamente 0,90; +2 desviaciones estándar es aproximadamente 0,99; y -2 desviaciones estándar es aproximadamente 0,825. La no linealidad se desprende de los cálculos simples 0,99 - 0,90 = 0,09 mientras que 0,90 - 0,825 = 0,075: el aumento de la mediana a la cola superior es mayor que el aumento de la cola inferior a la mediana. Podemos igualar las pendientes probando algunas reexpresiones sencillas de estos tres valores solamente. Por ejemplo, tomando los recíprocos de los tres valores de los datos clave (potencia de Box-Cox de -1) se obtiene
1/0.825 = 1.21
1/0.90 = 1.11; 1.21 - 1.11 = 0.10 (new slope is 0.050 per SD)
1/0.99 = 1.01; 1.11 - 1.01 = 0.10 (0.050 per SD)
Porque las pendientes de los valores reexpresados son ahora iguales, sabemos que la parcela de recíprocos de los datos será aproximadamente lineal entre -2 y +2 DE. Como comprobación, elijamos más puntos en las colas y veamos qué hace el recíproco con ellos. Estimo que el valor del gráfico a -3 DE de la media es de alrededor de 0,79 y el valor a +3 DE de la media es de 1,05. Las dos pendientes en cuestión son iguales a 0,053 y 0,052 por SD: bastante cercanas entre sí y a las pendientes encontradas entre -2 y +2 SD.
Mis estimaciones -basadas en el gráfico que se muestra en un monitor- son burdas, por lo que es conveniente repetir estos cálculos (sencillos y rápidos) con los datos reales. Sin embargo, hay pruebas considerables de que sus datos, cuando se reexpresan adecuadamente con una simple transformación, se aproximan a una distribución normal.