6 votos

¿Este gráfico de apoyo a la asunción de homoscedasticity?

enter image description here

Yo no entiendo muy bien cuando un gráfico se muestra homoscedasticity. Por favor alguien puede explicar esto a mí con la ayuda de la trama me ofrecen?

7voto

Aksakal Puntos 11351

No creo que un gráfico puede necesariamente "mostrar" homoscedasticity, pero puede indicar a las desviaciones de la misma. El gráfico muestra de manera muy obvia la tendencia de los residuos vs predicha. Cada vez que vea a una cierta clase de una estructura en estas parcelas es una fuente de preocupación. Idealmente, usted debe ver a un informe de la nube de puntos sin ningún tipo de indicación de una tendencia hacia arriba o hacia abajo. El tuyo está claramente inclinada hacia abajo. No es buena.

6voto

Isabella Ghement Puntos 457

enter image description hereDebo confesar que nunca he visto una parcela en donde los valores ajustados son estandarizados - por lo general, nos estandarizar los residuos, pero no los valores ajustados.

La primera cosa que usted debe hacer es dibujar una línea horizontal imaginaria a través de cero en esta parcela. Esta línea se ancla a la trama y realmente ayudarle a entender lo que está pasando.

Si las observaciones en la parcela están dispersos al azar sobre la horizontal de la línea de cero, tales que el nivel de la dispersión es más o menos la misma acerca de esta línea como usted se mueve de la izquierda a la derecha a lo largo de la línea, lo que podría indicar que la linealidad y homoscedasticity supuestos no son violados por los datos. Si, en la parte superior de esto, la mayoría de la estandarización de los residuos caen dentro de +/- 3, a continuación, que podrían apoyar a la normalidad asunción (aunque, para comprobar la normalidad de la asunción, es mejor que mirar directamente a la distribución de los residuos a través de un histograma o diagrama de densidad y también en un diagrama de probabilidad normal de los residuos).

En su trama, se ve como todos los 3 supuestos son violados por los datos.

La linealidad supuesto es violado debido a la nube de puntos muestra una sistemática downard tendencia, como se ha señalado por @Aksakal.

El homoscedasticity supuesto es violado debido a que la propagación de los residuos no es (aproximadamente) el mismo que se mueven a lo largo de la línea horizontal pasando por cero.

El supuesto de normalidad es violado debido a que los residuos no se forma una nube de puntos al azar y más o menos uniformemente dispersos entre -3 y 3.

2voto

Luc Puntos 71

El gráfico muestra que hay problemas con este modelo, pero la pregunta es si o no la muestra desviaciones de la hipótesis de homoscedasticity, y que no es muy claro en el gráfico. Creo que no muestran algún desviación: sigma parece más pequeños en los valores bajos de la predicción de la variable, pero es difícil decir.

El gráfico muestra que la media de los residuos es ir hacia abajo, de derecha a izquierda (aunque, como se ha señalado por whuber, existe cierto nivel de ilusión óptica en esto, debido a la mayor cantidad de puntos en la parte inferior izquierda). Así, la distribución de los residuos (en concreto, la media de la distribución) es probablemente no es la misma en valores alto y bajo de las predicciones (se puede ajustar a un modelo de la forma a*x+b para los residuos y se mostrará en la misma parcela) . Yo no le llamaría a esto una violación de la linealidad (residuos en la regresión no lineal de los modelos también se espera que tengan la misma media que en todo el dominio de la aplicación), pero parece violar el supuesto de que todos los residuos provienen de la misma distribución.

La manera más sencilla de probar si la media de los residuos tiene una tendencia es mirar en la tabla ANOVA del modelo de regresión (esto es un poco diferente, aunque relacionada, haciendo un análisis de VARIANZA de los residuos). En Mathematica, la propiedad "ANOVATable" está disponible para los modelos de regresión obtenidos con LinearModelFit y NonlinearModelFit. En la imparcialidad, utilizando el estándar de ANOVA no es más que justificado, porque la distribución de los residuos no se ve normal. Hay no paramétrica ANOVA métodos que podrían ser utilizados (Kruskal-Wallis). Honestamente, creo que una prueba es apenas necesario, la tendencia parece clara para mí a partir de la gráfica. La trama me sugieren arriba le da un valor para la pendiente. Una prueba de ANOVA (o similar) le daría un p-valor para juzgar si que la pendiente es significativamente diferente de cero (no se puede esperar a ser exactamente cero).

De vuelta a homoscedasticity, tendrás que comprobar que la desviación estándar (sigma, para abreviar), no la media, es la misma en diferentes valores de la predicción de la variable. Una manera simple de hacer esto es a bin los datos en un par de bandejas y calcular sigma en cada bin. Por supuesto, hay una cierta libertad en cuanto a cómo reciclaje de los datos (por lo que este simple enfoque se basa en el juicio). En lugar de calcular los sigmas para cada bin, usted puede hacer una prueba en los grupos de residuos en cada bin. La prueba de Bartlett, por ejemplo, toma varias muestras como su entrada y decide si las muestras provienen de distribuciones con la misma sigma (no se si proceden de la misma distribución). En tu caso, parece que hay serias desviaciones de la normalidad, por lo que la prueba de Bartlett puede no ser la mejor, test de Levene es más robusto. En Mathematica, la función VarianceEquivalentTest toma de varias muestras (que acaba de ser los residuos en los diferentes contenedores) y devuelve los resultados de varias pruebas (Bartlett, Levene, Conover, etc.), si las muestras tienen el mismo sigma. Creo que va a abstenerse de informar en una prueba de que no parece aplicable a los datos.

A partir de su gráfica, yo estaría inclinado a decir que a bajos valores de la predicción de la variable de la sigma se ve más pequeña (con el mismo nivel de difusión con más puntos de datos generalmente significa una menor sigma). Pero no es tan claro para mí como es la tendencia en la media, por ejemplo (de nuevo, incluso de la tendencia en los medios, se ha sugerido que la gráfica podría ser engañosas debido a las variaciones en la densidad de la población). Una clara violación de homoscedasticity es un gráfico con muy estrecho diferencial en algunas partes y muy amplia en los demás, y los suyos no se muestra muy claramente. Pero no claramente demuestran lo contrario.

Otra manera de prueba para homoscedasticity directamente sobre los residuos (sin el agrupamiento de los datos) es ejecutar el Breusch-Pagan de la prueba o el Blanco de prueba en los residuos (usted necesitará los residuos Y los valores previstos, debido a que estas pruebas de verificación si sigma parece ser una función de los valores predichos).

Los residuos muestran una clara desviación de la normalidad, incluso parece claro que son bimodal. Por ejemplo, en los grandes valores de la predicción de la variable, los residuos están claramente concentradas en torno a dos valores, uno alto y uno bajo. Puede ejecutar una prueba de normalidad de los residuos (parece poco necesario), como el de Anderson-Darling, Smirnov, etc., pero puesto que los residuos parecen venir de diferentes distribuciones, estas pruebas no son muy significativas. Una prueba de normalidad tiene sentido en una muestra que fue en su totalidad de la misma distribución. En este sentido, una prueba de normalidad por lo general, deben ir en último lugar, después de haber establecido que todos los residuos provienen de la misma distribución. Algunas personas simplemente hacen una prueba de normalidad y nada más, asumiendo que si los residuos de vino de diferentes distribuciones, lo más probable es una prueba de normalidad sería un fracaso. Hay algo de verdad en eso, pero es muy inestable estadísticas. Es como decir que si la temperatura del cuerpo es normal, entonces el paciente está sano.

En general, usted desea ver la evidencia de que todos los residuos provienen de la misma distribución. La primera cosa a comprobar es la media y sigma. En su caso, la media no no parecen constante para mí, pero usted debe comprobar, y para sigma es simplemente más difícil decir que a partir de su gráfica (así que la respuesta corta a tu pregunta original, que este no es, sin duda, es que es difícil saber a partir de su gráfico). Por supuesto, una distribución es más que su media y su sigma, pero si los dos se ven bien (es decir, si se constante en todo el dominio de la aplicación), entonces no hay razón para celebrar. Si los residuos provienen de la misma distribución, entonces, también para que la distribución de estar centrado en torno a cero, a ser unimodal, preferentemente simétrica, y, lo ideal, es normal. Pero la normalidad es como la última agradable, no es un requisito para un buen modelo.

Por último, recordar que el diagrama de dispersión de los residuos para un buen modelo puede parecer un poco lioso. En gran medida esto depende de cuán uniforme poblada de las diferentes regiones del modelo de dominio. Si uno tiene una importante cantidad de datos en una región, y muy poco en los demás, entonces hay cuestiones relacionadas con el apalancamiento de los diferentes puntos de datos. Esta es en parte la razón de que uno mira estandarizado de residuos y studentized residuos. En mi mente, una parcela de residuos que se ve demasiado ideal (perfectamente horizontal, uniformemente pobladas rectángulo), sugiere un modelo de eludir, en lugar de un buen modelo.

1voto

Tori Puntos 1

Nota: yo uso las mayúsculas para referirse a la totalidad de un vector, y letras minúsculas para referirse a una determinada observación de un vector. Esperemos que esto no es confuso.

Creo que la respuesta debería ser no. Ofrezco una explicación intuitiva, así como una rápida y sucia (énfasis en sucio) código R que es compatible con mi afirmación.

La varianza de la $Y$ de los valores está aumentando con $x$, porque a pesar de que el rango de $Y$ parece ser algo constante en el dominio de $X$, el promedio de la distancia de los puntos de su media (como una función de la $x$) está aumentando. Usted puede ver esto debido a que la densidad de $Y$ en las regiones entre su extensión es en realidad disminuye con el aumento de $x$, y por lo tanto el promedio del cuadrado de la desviación (desviación) de la media es cada vez mayor. En otras palabras, casi todas las $y$ valores de la separación de la media (condicional en $x$) son "muy grandes" para un gran $x$, mientras que en menor $x$, están en cualquier parte desde cero "realmente grande".

De todos modos, no me sorprendería si la gente encuentra que la explicación realmente confuso. Si es así, sólo tiene que ejecutar el siguiente en R, y observar la gráfica resultante.

set.seed(999)
n.lines <- 10
n.points.per.line <- 100
min.intercept <- -3
max.intercept <- 3
x <- vector('numeric')
y <- x
intercept <- seq(from=min.intercept, to=max.intercept, length.out=n.lines)

for (i in 1:n.lines) {
  min <- -1.5
  max <- intercept[i]^2
  x.new <- runif(n=n.points.per.line, min=min, max=max)
  x <- c(x, x.new)
  y <- c(y, -0.1*x.new+intercept[i])
}

ylim <- c(min(y)*1.1, var(y)*3)
xlim <- c(min(x)*1.1, max(x)*1.1)
xlab <- 'x'
ylab <- 'y'
plot(x, y, type='p', ylim=ylim, xlim=xlim, ylab=ylab, xlab=xlab)

buckets <- ceiling(seq(from=min(x), to=max(x)))
var.y <- sapply(buckets, function(i) {
  y <- y[which(x <= i & x >= (i-1))]
  var(y)
})
par(new=T)
plot(x=buckets, y=var.y, col='blue', type='l', ylim=ylim, xlim=xlim, ylab=ylab, xlab=xlab)

enter image description here

Esto está lejos de ser exacta, pero los datos parecen mucho a la suya. Yo bucketed $Y$ a cerca de diez diferentes intervalos (basado en los valores enteros de a $X$) y se calcula su varianza; la línea azul muestra esto en la trama. Como se puede ver, está aumentando con $x$, y por lo tanto los datos son no homoscedástica.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X