+1 a @NickSabbe, por "la trama sólo te dice que "algo está mal"", que es a menudo la mejor manera de utilizar un qq-plot (ya que puede ser difícil de entender cómo interpretarlos). Sin embargo, es posible aprender a interpretar un qq-plot pensando en cómo hacer uno.
Empezarías ordenando tus datos, luego contarías hacia arriba desde el valor mínimo tomando cada uno como un porcentaje igual. Por ejemplo, si tienes 20 puntos de datos, cuando cuentes el primero (el mínimo), te dirás: "He contado el 5% de mis datos". Seguirías este procedimiento hasta llegar al final, momento en el que habrías pasado por el 100% de tus datos. A continuación, estos valores porcentuales pueden compararse con los mismos valores porcentuales de la normal teórica correspondiente (es decir, la normal con la misma media y la misma DE).
Cuando vayas a trazarlos, descubrirás que tienes problemas con el último valor, que es el 100%, porque cuando has pasado por el 100% de una normal teórica estás "en" el infinito. Este problema se soluciona añadiendo una pequeña constante al denominador en cada punto de los datos antes de calcular los porcentajes. Un valor típico sería añadir 1 al denominador; por ejemplo, llamarías a tu primer punto de datos (de 20) 1/(20+1)=5%, y el último sería 20/(20+1)=95%. Ahora si se trazan estos puntos frente a una normal teórica correspondiente, se tendrá una pp-plot (para trazar las probabilidades contra las probabilidades). Lo más probable es que un gráfico de este tipo muestre las desviaciones entre su distribución y una normal en el centro de la distribución. Esto se debe a que el 68% de una distribución normal se encuentra dentro de +/- 1 SD, por lo que los pp-plots tienen una excelente resolución allí, y una pobre resolución en otros lugares. (Para más información sobre este punto, puede ayudar a leer mi respuesta aquí: Parcelas PP vs. Parcelas QQ .)
A menudo, lo que más nos preocupa es lo que ocurre en las colas de nuestra distribución. Para obtener una mejor resolución allí (y por tanto peor resolución en el medio), podemos construir un qq-plot en su lugar. Para ello, tomamos nuestros conjuntos de probabilidades y los pasamos por la inversa de la FCD de la distribución normal (es como leer al revés la tabla z en la parte posterior de un libro de estadísticas: se lee una probabilidad y se lee una puntuación z). El resultado de esta operación son dos conjuntos de quantiles que pueden ser trazados de forma similar.
@whuber tiene razón en que la línea de referencia se traza después (normalmente) encontrando la línea que mejor se ajusta a través del 50% de los puntos (es decir, desde el primer cuartil hasta el tercero). Esto se hace para facilitar la lectura del gráfico. Utilizando esta línea, puede interpretar el gráfico como si le mostrara si los cuantiles de su distribución divergen progresivamente de una verdadera normal a medida que se mueve hacia las colas. (Tenga en cuenta que la posición de los puntos más alejados del centro no son realmente independientes de los más cercanos; así que el hecho de que, en su histograma específico, las colas parezcan juntarse después de que los "hombros" se diferencien no significa que los cuantiles sean ahora los mismos).
Se puede interpretar un qq-plot de forma analítica considerando que los valores leídos en los ejes se comparan para un determinado punto trazado. Si los datos estuvieran bien descritos por una distribución normal, los valores deberían ser aproximadamente los mismos. Por ejemplo, tomemos el punto extremo de la esquina inferior izquierda: su $x$ es en algún lugar más allá de $-3$ pero su $y$ valor es sólo un poco más allá de $-.2$ por lo que está mucho más lejos de lo que "debería" estar. En general, una rúbrica sencilla para interpretar un gráfico qq es que si una cola dada se tuerce en sentido contrario a las agujas del reloj desde la línea de referencia, hay más datos en esa cola de su distribución que en una normal teórica, y si una cola se tuerce en el sentido de las agujas del reloj hay menos datos en esa cola de su distribución que en una normal teórica. En otras palabras:
- si las dos colas se retuercen en sentido contrario a las agujas del reloj, tienes colas pesadas ( leptokurtosis ),
- si ambas colas se retuercen en el sentido de las agujas del reloj, tiene colas ligeras (platykurtosis),
- si tu cola derecha gira en el sentido contrario a las agujas del reloj y tu cola izquierda gira en el sentido de las agujas del reloj, tienes desviación a la derecha
- si tu cola izquierda gira en el sentido contrario a las agujas del reloj y tu cola derecha gira en el sentido de las agujas del reloj, tienes inclinación hacia la izquierda