10 votos

Heteroskedasticidad - interpretación del gráfico de residuos

Estoy trazando un gráfico de residuos para comprobar la heteroscedasticidad. La prueba de Breusch-Pagan es significativa y, por tanto, sospecho que hay pruebas de heteroscedasticidad. La pregunta es:

(a) ¿Cómo puedo interpretar dicho gráfico? Sé que algunos puntos parecen estar superpuestos, etc. ¿Es tan simple como eso?

(b) También los datos tienen muchas variables binarias ficticias. ¿Podría ser esta la razón de la heteroscedasticidad?

Residual plot

3 votos

Cesare, creo que estás confundiendo la homo- con la heteroscedasticidad.

3 votos

El efecto de las variables ficticias es que los residuos tienden a formar líneas verticales: esto es especialmente evidente para los valores ajustados más bajos. El gráfico es algo inadecuado, ya que cada punto puede representar múltiples valores coincidentes, pero muestra cierta tendencia a una menor dispersión vertical en los valores ajustados más altos (pero no por mucho: esa apariencia se debe en parte al hecho de que hay menos residuos en los valores más altos). Sin embargo, lo que se haga al respecto -si es que se hace algo- depende de la naturaleza de los datos y de lo que se intente aprender. ¿Quizás podrías compartir alguna información al respecto?

0 votos

Estoy tratando de aprender el efecto de estos maniquíes binarios en la inversión. La única variable independiente continua es la edad, el resto son variables binarias o dummies aditivas. Sí, me refiero a la heteroscedasticidad.

9voto

jldugger Puntos 7490

Con respecto a la heteroscedasticidad, le interesa saber cómo varía la dispersión vertical de los puntos con los valores ajustados . Para ello, hay que dividir el gráfico en secciones verticales finas, encontrar la elevación central (valor y) en cada sección, evaluar la dispersión en torno a ese valor central y, a continuación, conectarlo todo. He aquí algunas secciones posibles:

Figure 1: Original graphic with vertical slices superimposed

Normalmente, esto se haría utilizando estimaciones robustas de localización y dispersión, como la mediana y el rango intercuartil. Si tuviéramos los datos, podríamos generar un diagrama esquemático errante . Los datos son difíciles de extraer numéricamente de una imagen gráfica con puntos sobretrazados. Sin embargo, en este caso las dispersiones verticales tienden a ser compactas, simétricas y sin valores atípicos, por lo que estamos seguros de utilizar las medias y las desviaciones estándar en su lugar, y éstas se calculan fácilmente utilizando un software de procesamiento de imágenes. De hecho, lo que hice fue manchar los puntos horizontalmente y luego calcular la media y la varianza de sus ubicaciones para cada columna vertical de píxeles en la imagen. (Este procesamiento será un poco inexacto debido al sobretrazado de algunos puntos, pero no es probable que sesgue mucho las DE relativas).

Figure 2: horizontally smeared plot.

Hay una forma definida de cuña en los puntos manchados, estrechándose de izquierda a derecha. (El hecho de entrecerrar los ojos ante un gráfico a veces puede ayudar a resaltar esa gestalt impresión de un gráfico de dispersión, siempre que tenga muchos puntos).

La media (mostrada abajo en azul) y la media más o menos un múltiplo adecuado de la raíz cuadrada de la varianza (en rojo y dorado) trazarán la ubicación y los límites típicos de los residuos.

Figure 3: Traces imposed on the original plot.

Elegí un múltiplo diseñado para situar un 5% de los puntos por encima de la traza superior y otro 5% por debajo de la traza inferior.

Con la práctica se puede véase tales rastros examinando de cerca la propia trama; no es necesario hacer cálculos. Escaneando de izquierda a derecha, estima el centro de cada columna vertical de puntos. Estima su dispersión. Infla un poco tus estimaciones de dispersión donde haya relativamente menos puntos, ya que no han tenido la oportunidad de mostrar toda su dispersión. Al mismo tiempo, descuenta tus estimaciones (es decir, no les des mucha credibilidad) en las zonas en las que hay muy pocos puntos, porque tus estimaciones son muy inciertas allí.

Busque patrones claros y consistentes de cambios en la dispersión. En la figura anterior, el trazo superior (rojo) y el inferior (dorado) parecen acercarse un poco más de izquierda a derecha, a medida que aumenta el valor ajustado. Esto puede hacerse más evidente si se traza la desviación estándar. Las unidades no importan, pero el eje vertical debe empezar en cero para ofrecer una representación precisa de relativa tamaños de los diferenciales:

Figure 4: Plot of SD against fitted value.

Esto confirma la impresión inicial de una DS decreciente con el aumento del valor ajustado. En general, la desviación estándar se reduce a la mitad a medida que se recorre de izquierda a derecha. (El ligero aumento de la derecha puede descartarse, ya que está asociado a pocos puntos de datos). Esta es una forma clásica de heteroscedasticidad: la dispersión cambia sistemáticamente con el valor ajustado.


El uso de variables ficticias en una regresión múltiple no introducirá heteroscedasticidad. A menudo la reducirá, al resolver los grupos de residuos superpuestos en grupos separados.

Que la heteroscedasticidad sea realmente un problema depende del objetivo del análisis, del método de regresión empleado, de la información que se extraiga de los resultados y de la naturaleza de los datos.

0voto

BreakinDragon Puntos 1

No hay duda de que estos gráficos indican heteroscedasticidad. Si se necesita una prueba exacta mi estudio reciente dará la respuesta "Una nueva prueba para detectar tipos de heteroscedasticidad monótona y no monótona, revista de estadística aplicada, 2016"

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X