14 votos

El gráfico QQ no coincide con el histograma

Tengo un histograma, un kernel de densidad y una distribución normal ajustada de los rendimientos logarítmicos financieros, que se transforman en pérdidas (se cambian los signos), y un gráfico QQ normal de estos datos:

http://tinypic.com/r/34ocwvr/6

El gráfico QQ muestra claramente que las colas no se ajustan correctamente. Pero si observo el histograma y la distribución normal ajustada (azul), ni siquiera los valores en torno a 0,0 se ajustan correctamente. Así que el gráfico QQ muestra que sólo las colas no están ajustadas correctamente, pero es evidente que toda la distribución no está ajustada correctamente. ¿Por qué no aparece esto en el gráfico QQ?

12voto

Sean Hanley Puntos 2428

+1 a @NickSabbe, por "la trama sólo te dice que "algo está mal"", que es a menudo la mejor manera de utilizar un qq-plot (ya que puede ser difícil de entender cómo interpretarlos). Sin embargo, es posible aprender a interpretar un qq-plot pensando en cómo hacer uno.

Empezarías ordenando tus datos, luego contarías hacia arriba desde el valor mínimo tomando cada uno como un porcentaje igual. Por ejemplo, si tienes 20 puntos de datos, cuando cuentes el primero (el mínimo), te dirás: "He contado el 5% de mis datos". Seguirías este procedimiento hasta llegar al final, momento en el que habrías pasado por el 100% de tus datos. A continuación, estos valores porcentuales pueden compararse con los mismos valores porcentuales de la normal teórica correspondiente (es decir, la normal con la misma media y la misma DE).

Cuando vayas a trazarlos, descubrirás que tienes problemas con el último valor, que es el 100%, porque cuando has pasado por el 100% de una normal teórica estás "en" el infinito. Este problema se soluciona añadiendo una pequeña constante al denominador en cada punto de los datos antes de calcular los porcentajes. Un valor típico sería añadir 1 al denominador; por ejemplo, llamarías a tu primer punto de datos (de 20) 1/(20+1)=5%, y el último sería 20/(20+1)=95%. Ahora si se trazan estos puntos frente a una normal teórica correspondiente, se tendrá una pp-plot (para trazar las probabilidades contra las probabilidades). Lo más probable es que un gráfico de este tipo muestre las desviaciones entre su distribución y una normal en el centro de la distribución. Esto se debe a que el 68% de una distribución normal se encuentra dentro de +/- 1 SD, por lo que los pp-plots tienen una excelente resolución allí, y una pobre resolución en otros lugares. (Para más información sobre este punto, puede ayudar a leer mi respuesta aquí: Parcelas PP vs. Parcelas QQ .)

A menudo, lo que más nos preocupa es lo que ocurre en las colas de nuestra distribución. Para obtener una mejor resolución allí (y por tanto peor resolución en el medio), podemos construir un qq-plot en su lugar. Para ello, tomamos nuestros conjuntos de probabilidades y los pasamos por la inversa de la FCD de la distribución normal (es como leer al revés la tabla z en la parte posterior de un libro de estadísticas: se lee una probabilidad y se lee una puntuación z). El resultado de esta operación son dos conjuntos de quantiles que pueden ser trazados de forma similar.

@whuber tiene razón en que la línea de referencia se traza después (normalmente) encontrando la línea que mejor se ajusta a través del 50% de los puntos (es decir, desde el primer cuartil hasta el tercero). Esto se hace para facilitar la lectura del gráfico. Utilizando esta línea, puede interpretar el gráfico como si le mostrara si los cuantiles de su distribución divergen progresivamente de una verdadera normal a medida que se mueve hacia las colas. (Tenga en cuenta que la posición de los puntos más alejados del centro no son realmente independientes de los más cercanos; así que el hecho de que, en su histograma específico, las colas parezcan juntarse después de que los "hombros" se diferencien no significa que los cuantiles sean ahora los mismos).

Se puede interpretar un qq-plot de forma analítica considerando que los valores leídos en los ejes se comparan para un determinado punto trazado. Si los datos estuvieran bien descritos por una distribución normal, los valores deberían ser aproximadamente los mismos. Por ejemplo, tomemos el punto extremo de la esquina inferior izquierda: su $x$ es en algún lugar más allá de $-3$ pero su $y$ valor es sólo un poco más allá de $-.2$ por lo que está mucho más lejos de lo que "debería" estar. En general, una rúbrica sencilla para interpretar un gráfico qq es que si una cola dada se tuerce en sentido contrario a las agujas del reloj desde la línea de referencia, hay más datos en esa cola de su distribución que en una normal teórica, y si una cola se tuerce en el sentido de las agujas del reloj hay menos datos en esa cola de su distribución que en una normal teórica. En otras palabras:

  • si las dos colas se retuercen en sentido contrario a las agujas del reloj, tienes colas pesadas ( leptokurtosis ),
  • si ambas colas se retuercen en el sentido de las agujas del reloj, tiene colas ligeras (platykurtosis),
  • si tu cola derecha gira en el sentido contrario a las agujas del reloj y tu cola izquierda gira en el sentido de las agujas del reloj, tienes desviación a la derecha
  • si tu cola izquierda gira en el sentido contrario a las agujas del reloj y tu cola derecha gira en el sentido de las agujas del reloj, tienes inclinación hacia la izquierda

6voto

pkaeding Puntos 12935

En pocas palabras: el gráfico QQ muestra la clasificación de la distribución empírica en comparación con la distribución esperada. En su caso (y en realidad esto es bastante frecuente; siempre con distribuciones simétricas), los rangos cerca del medio serán similares entre la esperada y la empírica, por lo tanto, el QQ-plot está cerca de la línea allí.

No es tan sencillo identificar las observaciones "extrañas" basándose en su posición en un gráfico QQ: el gráfico sólo te dice que "algo va mal", y si sabes más sobre los datos/distribuciones, puedes averiguar dónde están los problemas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X