1 votos

Comprensión del gráfico de cuantiles frente al gráfico de eliminación de valores atípicos

Tengo una muestra height para algunas personas muestra con un gráfico de cuantiles como este:

Necesito comprobar que la muestra pertenece a la distribución normal.

enter image description here

Elimino los valores atípicos

Q <- quantile(people$height, probs=c(.25, .75), na.rm = FALSE)
iqr <- IQR(people$height)
eliminated <- subset(people, people$height > (Q[1] - 1.5*iqr) & people$height < (Q[2]+1.5*iqr))

Los resultados son:

enter image description here

Según https://data.library.virginia.edu/understanding-q-q-plots/ ¿Es correcto pensar que mi muestra pertenece a la distribución normal? ¿Por qué?

2voto

manku Puntos 111

A veces es útil disponer de una guía visual cuando cuando se trata de juzgar si un gráfico de cuantiles normales está "lo suficientemente cerca a la linealidad.

En primer lugar, aquí hay una demostración de cómo R hace gráficos utilizando qqnorm . Si los datos tienen $n$ puntos, entonces ppoints hace un vector de $n$ puntos espaciados uniformemente entre $0$ y $1.$ A continuación, para el eje horizontal, estos puntos se transforman por la función cuantílica normal estándar qnorm . El eje vertical muestra el $n$ puntos de datos ordenados por el más pequeño al más grande.

En el programa siguiente, simulamos $n = 100$ puntos de $\mathsf{Norm}(\mu=150, \sigma=9).$ En primer lugar, utilizamos qqnorm para hacer un gráfico QQ normal de los datos con los círculos abiertos por defecto como puntos de trazado. A continuación utilizamos el método descrito anteriormente para poner puntos naranjas en los círculos abiertos de qqnorm . Encajan perfectamente.

# method
set.seed(2020)
x = rnorm(100, 150, 9)
qqnorm(x)
points( qnorm(ppoints(100)), sort(x),  pch=20,col="orange" )

enter image description here

Ahora, haz un gráfico QQ normal de datos normales x (panel izquierdo de abajo). Tal vez piense que el gráfico es demasiado "inestable" en las colas para para que la muestra sea normal

Volvemos a hacer el mismo QQ-plot en el panel de la derecha. Como orientación sobre la conformidad de estos puntos con una línea recta recta, utilizamos el método anterior y superponemos los QQ-plots (en azul claro) del método anterior para 20 muestras muestras normales con medias y desviaciones estándar coincidentes. Por último, para mayor claridad, refrescamos el gráfico de probabilidad original de el x 's.

par(mfrow = c(1,2))
set.seed(509)
 x = rnorm(100, 150, 9)
 qqnorm(x); qqline(x)

 qqnorm(x)         
  for(i in 1:20) {
   y = rnorm(100, mean(x), sd(x))
   points( qnorm(ppoints(100)), sort(y),pch=20, col="skyblue")
  }
  points(qnorm(ppoints(100)), sort(x), pch=19)  # refresh
par(mfrow=c(1,1))

enter image description here

Parece que el gráfico QQ de los datos x no es inusual para la normalidad muestras normales de tamaño $n = 100.$

Algunos otros programas de software estadístico dan "bandas de confianza" en torno a de los gráficos de cuantiles. Parecen útiles, pero nunca he entendido exactamente a qué se refiere la probabilidad del 95%. Aquí hay un gráfico de una muestra normal de tamaño 100, realizado con una versión reciente de Minitab.

enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X