5 votos

¿Qué indica este gráfico Q-Q sobre mis datos?

enter image description here

Gráfico Q-Q de los residuos del conjunto de datos

enter image description here

Gráfico que muestra la relación entre la longitud de la concha del cornejo y la distancia desde la marca de la marea baja, con la línea de regresión lineal, las líneas del intervalo de confianza del 95% y la línea del gradiente 0 (rojo).

¿Significa el gráfico Q-Q que hay menos "perritos pequeños" que "perritos grandes"?

2 votos

¿Podría utilizar el "qqPlot" del paquete 'car' en 'R'? Pone intervalos de confianza para la normalidad. ¿Puedes decirme cuáles son tus datos, de dónde proceden y para qué intentas utilizarlos? Entender el problema es realmente (realmente) importante antes de decir "los datos significan x". Además, necesitas más texto en tu pregunta. ¿Qué crees que significa o no significa?

1 votos

El gráfico de dispersión de los datos originales es muy útil. Un gráfico implica que la respuesta es la altura; el otro, la longitud del caparazón. ¿Puede confirmar que los gráficos corresponden al mismo análisis? Veo una relación muy débil en general: considerar si se satisfacen los supuestos del modelo para un modelo poco convincente no merece mucho tiempo. Si el modelo es bueno, que los residuos sean normales es secundario; si es pobre, la normalidad es irrelevante. También veo una cola más larga de organismos más pequeños, lo que puede reflejar una situación de mezcla, por ejemplo, conchas dañadas organismos inmaduros

0 votos

@NickCox Gracias por hacer el enlace a otro post con mi respuesta.

7voto

AdamSane Puntos 1825

La forma del gráfico es coherente con una distribución sesgada a la izquierda, posiblemente bimodal (con una pequeña moda a la izquierda).

Es posible que haya dos grupos con una dispersión similar (como una mezcla de dos normales con aproximadamente la misma desviación estándar, teniendo la subpoblación más pequeña una media más baja que el resto). Esto sugeriría la posibilidad de un predictor ausente, que correspondería a los dos grupos).

Sin embargo, la siguiente discusión se basa en el supuesto de regresión de que la media condicional y la dispersión de los errores es cero y constante, respectivamente, de modo que podemos interpretar el gráfico QQ de los residuos como una información sobre la distribución condicional de los errores. Obsérvese que interpretar la distribución marginal de los residuos de esta manera tiene poco sentido si los residuos proceden realmente de varias distribuciones diferentes. Hay que considerar primero otros diagnósticos, incluidos los relativos a otros posibles predictores].

Observe que hay una "parte empinada" entre las dos secciones menos empinadas de la izquierda y la derecha, pero a ambos lados de esa parte empinada la pendiente es similar:

qq plot of regression residuals

Esto sugiere un aspecto razonablemente normal en el centro y en la derecha y también en la cola de la izquierda, pero que hay una "brecha" entre ellos con menos puntos (en torno a -1,3).

Por lo tanto, la distribución es probablemente bimodal (el segundo pico es una pequeña protuberancia a la izquierda). Se puede obtener una apariencia similar generando datos a partir de una distribución normal y dejando fuera una proporción sustancial de puntos en un intervalo cercano a -1,3.

Así:

qqplot of similar data with density showing bimodality and lower density near -1.3

Se trata de diez conjuntos de datos simulados de (originalmente) 400 valores cada uno de una normal estándar con puntos cercanos a -1,3 que tienen alguna posibilidad de ser omitidos; lo que resulta en una media de 349 puntos con una apariencia algo bimodal y cuyos gráficos qq tienen típicamente algo parecido a la apariencia de los suyos -- con puntos a la izquierda y al centro y a la derecha que parecen estar cerca de líneas aproximadamente paralelas, y en medio una sección más empinada (que indica la menor densidad)

0 votos

Mientras tú estabas trabajando en esta respuesta yo estaba preparando la mía y haciendo referencia a tu respuesta en un post anterior.

1 votos

Me sorprende su caracterización de la cola izquierda: parece consistente con una distribución Normal que tiene una varianza comparable (representada por la pendiente de la línea ajustada en el gráfico QQ) pero una mediana que es sustancialmente menos (representado por la caída uniforme). Esto se muestra claramente en el segundo gráfico de la OP, donde podemos ver esos "rezagados" bajos que parecen estar 10 unidades por debajo de lo que cabría esperar. Una descripción es una mezcla de dos normales de igual varianza, que podría explicarse con un modelo homocedástico en el que se ha omitido una variable explicativa binaria.

0 votos

@whuber Ese desplazamiento puede ser simplemente una consecuencia natural de la zona con menor densidad. Véase mi segundo gráfico, que muestra ese mismo tipo de desplazamiento en la parte izquierda del gráfico qq - Creé mi segundo gráfico generando 400 observaciones a partir de una normal estándar y luego simplemente reduciendo la densidad en un intervalo alrededor de -1,3 (omitiendo algunos puntos); vemos un "desplazamiento" muy similar en esa cola de la izquierda. La región de menor densidad basta por sí sola para empujar el resto de la línea hacia abajo. Puede que no sea necesario suponer que hay algún efecto adicional más allá de una región con menor densidad para ver algo así.

2voto

mat_geek Puntos 1367

Hay muchas maneras de tomar formal o informalmente una muestra y comprobar si es aproximadamente normal. Los gráficos pp o qq se suelen utilizar como herramientas de exploración. Si esa es su intención, yo no me preocuparía mucho por las barras de error. El gráfico debe parecerse a una línea recta aproximadamente para que la normalidad se considere un modelo razonable. Por los círculos del gráfico parece que tienes un tamaño de muestra razonablemente grande. Ayudaría a decirnos cuál es el tamaño de la muestra. En cuanto a tus datos, al menos deberías creer que se comportan como una muestra aleatoria de una población preferiblemente continua. Las desviaciones de la línea recta en los extremos del gráfico pueden indicar asimetría (skewness) o curtosis (colas pesadas).

La prueba ocular sugiere que hay una gran desviación de la normalidad en la cola inferior. En el cuerpo y la cola derecha el comportamiento parece acercarse a lo que se esperaría de una distribución normal.

Debería consultar el Puesto de trabajo del CV Cómo interpretar un gráfico qq . Glen_b tiene una buena respuesta con varias tramas y su interpretación. También me gusta el artículo de la Biblioteca de la Universidad de Virginia con el título How to interpret a qq plot que puedes encontrar con una búsqueda en Google bajo qq plot.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X