7 votos

¿"Inversa" Q-Q plot?

Supongamos que tenemos dos reales-valores de variables aleatorias $X,Y$. Deje $cdf_X$ $cdf_Y$ ser las correspondientes funciones de distribución acumulativa. Estamos interesados en la gráfica de la comparación de las distribuciones de $X$$Y$.

Si dibujamos el conjunto de puntos $$(cdf_X^{-1}(z),cdf_Y^{-1}(z))$$ for some $z\in[0,1]$, the resulting graph is called a Q-Q plot. If $cdf_X=cdf_Y$, then the Q-Q plot lies along the $\textbf{x=y línea}$ en el gráfico.

El Q-Q plot es muy útil, pero si $X$ o $Y$ tiene un par de extremal valores que difieren, la trama puede ser algo visualmente engañosa. Por ejemplo, supongamos $X$ es una distribución uniforme de más de 1000 muestras extraídas a partir de una distribución normal estándar. $Y$ se genera de la misma manera, con muestras independientes. Aquí está una correspondiente QQ-plot; tenga en cuenta que los puntos en la parte superior derecha e inferior izquierda esquinas desviarse de la punteado $\textbf{x=y line}$. enter image description here Aunque el extremal puntos divergentes, que no hay muchos de ellos. Con el fin de mostrar la alineación de la mayoría de los puntos, en su lugar, podríamos parcela $$(z,cdf_Y(cdf_X^{-1}(z)))$$ Aquí es el correspondiente "inversa Q-Q plot"; debido a que la mayoría de los puntos de alinear bien, es visualmente más obvio (para mí, de todos modos) que las distribuciones son similares. enter image description here

No he corrido a través de la "inversa Q-Q plot" antes, pero es lo suficientemente natural que es, probablemente, una herramienta estándar. ¿Esta parcela tiene un nombre?

11voto

Nick Cox Puntos 22819

Te he re-descubierto el P-P plot. Para una introducción, ver aquí.

Voy a añadir un poco gracioso el comentario de un texto, en el sentido de que si usted quiere ser, o parecer, optimista sobre el ajuste, utilice un P-P plot, mientras que si desea ser (aparecen) pesimista, se utiliza un Q-Q plot.

Su ejemplo es un caso en punto. El P-P plot es necesariamente anclado en principio en [0, 0] y [1, 1], pero incluso un poco waggly colas, el Q-Q plot muestra de manera bastante explícita. Vienen de un mal ajuste, ya sea a través de los valores atípicos, la curvatura o agrupación, y el Q-Q plot dice la mala noticia, sin restricciones.

A pesar de que, el menor uso de P-P parcelas supongo que surge debido a que tienen que hacer más trabajo para relacionarlas con los datos originales.

EDICIÓN de La cita que tenía en mente:

Exagerando un poco, se puede decir que uno debe aplicar la muestra df $F_n$ (o, igualmente, el sobreviviente de la función $1 - F_n$) y el P-P plot si uno quiere justificar una hipótesis visualmente. Las otras herramientas son preferible siempre una actitud crítica hacia el modelado es adoptado.

Reiss, R. D. y Thomas, M. 2007. El Análisis estadístico de los Valores Extremos: Con Aplicaciones a los Seguros, las Finanzas, la Hidrología y Otros Campos. Basilea: Birkhäuser, p.63. (casi idéntica redacción en la 2ª edición 2001 p.67)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X