7 votos

¿Cómo interpretar esta trama de QQ?

He ejecutado un gráfico QQ en R en mis datos usando

par(mfrow=c(1,2))
par(pty="s")
qqnorm(TEDS$LST1); qqline(TEDS$LST1)

que me dio esto: enter image description here

El histograma de los datos mostró un sesgo positivo hacia la izquierda, pero no sé cómo interpretar el gráfico QQ. ¿Por qué los puntos de datos se agrupan a lo largo de la línea? y ¿la cola recta en la parte inferior significa el sesgo a la izquierda que veo en el histograma?

7voto

jldugger Puntos 7490

Esta trama QQ tiene las siguientes características destacadas:

  1. El patrón escalonado, en el que sólo se alcanzan alturas específicas y separadas ("cuantiles de la muestra"), muestra los valores de los datos son discretos. Casi todos son números enteros de $3$ a través de $21$ . Aparecen algunos medios enteros. Evidentemente, se ha producido algún tipo de redondeo.

  2. Porque los "cuantiles teóricos" extremos están en $\pm 3.2$ (aproximadamente), debe haber alrededor de $1400$ datos mostrados. Esto se debe a que los extremos de estos datos con distribución normal tendrían puntuaciones Z de aproximadamente $\pm 3.2$ . (Esta estimación de $1400$ es aproximado, pero está en la línea correcta).

  3. Hay un gran número de valores en el mínimo de $3$ mucho más que cualquier otro valor. Esto es característico de censura de la izquierda , por lo que cualquier valor inferior a un umbral ( $3$ ) se sustituye por un indicador de que es menos de ese umbral --y, a efectos de trazado, todos esos valores se trazan en el umbral. (Para más información sobre los efectos de la censura en los gráficos de probabilidad, véase el análisis en http://stats.stackexchange.com/a/30749 .)

  4. Aparte de este "pico" en $3$ el resto de los puntos se acercan bastante a la línea de referencia diagonal. Esto sugiere que los datos restantes no se alejan demasiado de la distribución normal.

  5. Sin embargo, un examen más detallado muestra que el resto de los puntos son, en principio, ligeramente inferiores a la línea de referencia (para valores entre $5$ y $10$ ) y luego algo mayor (para valores entre $13$ y $20$ ) antes de volver a la línea del final (valor $21$ ). Esta "curvatura" indica una cierta forma de no normalidad.

Este tipo particular de curvatura es coherente con los datos que empiezan a seguir una distribución de valores extremos. En concreto, consideremos el siguiente mecanismo de generación de datos:

  • Recoge $k\ge 1$ Variables normales independientes e idénticamente distribuidas y retener sólo la mayor de ellas.

  • Hazlo $n = 1400$ tiempos.

  • Censurar los datos a la izquierda en un umbral de $3$ .

  • Registra sus valores con dos o tres decimales.

  • Redondea los valores al entero más cercano, pero no redondees ningún valor que sea exactamente un medio entero (es decir, que termine en $.500$ ).

Si ponemos $k=50$ o más o menos y ajustar la media y la desviación estándar de esas variantes normales subyacentes para que sean $\mu = -10$ y $\sigma = 7.5$ podemos producir versiones aleatorias de este gráfico QQ y la mayoría de ellas son prácticamente indistinguibles de él. (Se trata de una estimación muy aproximada; $k$ podría estar en cualquier lugar entre $8$ y $200$ más o menos, y diferentes valores de $k$ tendrían que coincidir con diferentes valores de $\mu$ y $\sigma$ .) Aquí están las seis primeras versiones que produje:

Figure

Lo que hagas con esta interpretación depende de tu comprensión de los datos y de lo que quieras aprender de ellos. No pretendo afirmar que los datos se hayan creado realmente de esa manera, sino sólo que su distribución se parece notablemente a ésta.

Esto es R para reproducir la figura (y generar muchas más como ésta si lo desea).

k <- 50
mu <- -10
sigma <- 7.5
threshold <- 3
n <- 1400
#
# Round most values to the nearest integer, occasionally
# to a half-integer.
#
rnd <- function(x, prec=300) {
  y <- round(x * prec) / prec
  ifelse(2*y == floor(2*y), y, round(y))
}
q <- c(0.25, 0.95) # Used to draw a reference line
par(mfcol=c(2,3))
set.seed(17)
invisible(replicate(6, {

  # Generate data
  z <- apply(matrix(rnorm(n*k), k), 2, max) # Max-normal distribution
  y <- mu + sigma * z                       # Scale and recenter it
  x <- rnd(pmax(y, threshold))              # Censor and round the values

  # Plot them
  qqnorm(x, cex=0.8)
  m <- median(x)
  s <- diff(quantile(x, q)) / diff(qnorm(q))
  abline(c(m, s))
  #hist(x)    # Histogram of the data
  #qqnorm(y)  # QQ plot of the uncensored, unrounded data
}))

6voto

AdamSane Puntos 1825

1) Yo no consideraría esto como una versión cuantitativa del teorema central del límite, sino como una versión cuantitativa de teoremas de la gran desviación (ambos están relacionados, por supuesto). Centrémonos en el resultado, y no en los métodos que se utilizan para obtenerlos. Dejemos que $(X_i)$ sea una secuencia de i.i.d, $\mathbb{R}$ -valorado, centrado variables aleatorias acotadas. Denotaré por $(S_n)$ la secuencia de sus sumas parciales. El principio de la gran desviación dice que existe una función de tasa $I: \mathbb{R} \to \mathbb{R}_+$ tal que, para cualquier conjunto abierto $O$ :

$$- \inf_O I \leq \liminf_{n \to + \infty} \frac{\ln \mathbb{P} (S_n/n \in O)}{n},$$

y para cualquier conjunto cerrado $F$ :

$$\liminf_{n \to + \infty} \frac{\ln \mathbb{P} (S_n/n \in F)}{n} \leq - \inf_F I.$$

En otras palabras, la probabilidad de que la suma $S_n$ es grande (digamos, $S_n \geq \varepsilon n$ para un fijo $\varepsilon$ ) disminuye exponencialmente en $n$ , más o menos a la velocidad $e^{- I (\varepsilon)n}$ .

Una característica notable de estos principios de gran desviación para la variable aleatoria i.i.d. es que la función $I$ que gobierna la velocidad del decaimiento, es la transformada de Lapaplace-legendre de la función característica de $X$ . En otras palabras, ¡exactamente lo que se obtiene con los límites de Chernoff! Así que los límites de Chernoff te dan un límite superior cuantitativo para los principios de la gran desviación:

$$\mathbb{P} (S_n/n \geq \varepsilon) \leq e^{- I(\varepsilon) n},$$

o de forma equivalente,

$$\frac{\mathbb{P} (S_n/n \geq \varepsilon)}{n} \leq - I(\varepsilon).$$

En un entorno más general, la función de tasa $I$ está relacionada con la entropía de algún sistema (se obtiene una entropía grande [es decir, pequeña para un físico - a menudo hay un cambio de signo] cuando la suma $S_n$ está lejos de su estado típico).

\==========

Hay un punto que es digno de mención, pero que aún no se ha planteado. Puedes demostrar que los límites de momento son más fuertes que los límites exponenciales. Usted sabe que, para cualquier $p \geq 0$ y cualquier $t > 0$ :

$$\mathbb{P} (|X| \geq t) \leq \frac{\mathbb{E} (|X|^p)}{t^p}.$$

Estos límites son más fuertes que los de Chernoff: si se conoce cada uno de los momentos de $X$ entonces los límites del momento le permiten obtener mejores límites en $\mathbb{P} (|X| \geq t)$ que los límites de Chernoff. Sin embargo, se comportan muy mal cuando se trata de sumas de variables aleatorias i.i.d. (porque los momentos cambian de forma no trivial), mientras que los límites exponenciales son muy fáciles de manejar:

$$\mathbb{E} (e^{\lambda S_n}) = \mathbb{E} (e^{\lambda X})^n.$$

\==========

2) Obviamente, los límites de Chernoff existen en cuanto la función característica $\mathbb{E} (e^{\lambda X})$ se define en una vecindad de $0$ , por lo que sólo se necesitan colas exponenciales para $X$ (y no la acotación). Además, si se quiere obtener un límite en una dirección (es decir, en $\mathbb{P} (S_n/n \geq \varepsilon)$ o $\mathbb{P} (S_n/n \leq -\varepsilon)$ , no en $\mathbb{P} (|S_n/n| \geq \varepsilon)$ ), sólo se necesitan colas exponenciales en la dirección correspondiente.

Si se asumen hipótesis más fuertes sobre las colas de $X$ se pueden obtener límites de Chernoff más fuertes. La acotación o subgaussianidad de $X$ son supuestos típicos.

Se pueden obtener límites similares (desigualdades de concentración) no sólo para las sumas aprciales de variables aleatorias i.i.d., sino también para algunas martingalas (véase la respuesta de Collin McQuillan), y para clases de procesos mucho, mucho más grandes. Este Página de Wikipedia le dará una idea, así como algunas palabras clave, si está interesado.

0 votos

Gracias Glen. Un diagrama muy útil. Tengo que ver cómo y si la transformación de los datos me dará una distribución normal.

1 votos

Es poco probable que se mejore con la transformación. El pico en 3 seguirá siendo un pico, independientemente de la transformación.

0 votos

He añadido un pmf para un conjunto de datos que da un gráfico Q-Q (más o menos) similar al tuyo. Una transformación monotónica sólo puede cambiar los espacios entre los picos, pero los picos en sí mismos siguen siendo la misma altura; por lo que el gran pico en 3 siempre será un gran pico en el extremo izquierdo de la distribución.

5voto

Nick Cox Puntos 22819

Sus datos están sesgados positivamente, es decir, sesgados hacia el a la derecha . "Derecha" o "izquierda" es una cuestión de la cola más larga, más estirada, de la distribución. La terminología presupone que se está (imaginando) mirando un histograma convencional con una escala de magnitud horizontal.

Pero está claro que tienes valores enteros entre 3 y 21, de ahí la apariencia de una escalera irregular, salvo que hay valores como 4,5. Tienes un pico prominente de valores en 3: eso no debería sorprenderte, pero no podemos decirte por qué. Del mismo modo, si se trata de recuentos, la ausencia de 0, 1 y 2 puede (o no) merecer un comentario.

Sin embargo, es posible que las medidas numéricas de asimetría sean negativas como efecto secundario del pico.

Los valores recuerdan a las calificaciones de un examen en el que la mayoría de los alumnos lo hicieron mal, pero pocos fueron absolutamente pésimos, y algunas respuestas desordenadas provocaron notas de compromiso.

Los valores de los datos que son iguales deben trazarse en el mismo nivel horizontal en varios niveles del $y$ eje. La media de las muestras del mismo tamaño de una distribución gaussiana verdadera sería distinta, por lo que los valores del eje $x$ eje debe ser distinto.

Sólo el pico significa que no se puede llamar a esta distribución "normal". Si pensabas que esta distribución sería normal, tienes que revisar tu forma de pensar.

1 votos

Gracias por la respuesta. Tiene sentido; sabía que no era normal, sólo que no podía averiguar de qué manera no lo era.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X