Con respecto a la heteroscedasticidad, le interesa saber cómo varía la dispersión vertical de los puntos con los valores ajustados . Para ello, hay que dividir el gráfico en secciones verticales finas, encontrar la elevación central (valor y) en cada sección, evaluar la dispersión en torno a ese valor central y, a continuación, conectarlo todo. He aquí algunas secciones posibles:
![Figure 1: Original graphic with vertical slices superimposed]()
Normalmente, esto se haría utilizando estimaciones robustas de localización y dispersión, como la mediana y el rango intercuartil. Si tuviéramos los datos, podríamos generar un diagrama esquemático errante . Los datos son difíciles de extraer numéricamente de una imagen gráfica con puntos sobretrazados. Sin embargo, en este caso las dispersiones verticales tienden a ser compactas, simétricas y sin valores atípicos, por lo que estamos seguros de utilizar las medias y las desviaciones estándar en su lugar, y éstas se calculan fácilmente utilizando un software de procesamiento de imágenes. De hecho, lo que hice fue manchar los puntos horizontalmente y luego calcular la media y la varianza de sus ubicaciones para cada columna vertical de píxeles en la imagen. (Este procesamiento será un poco inexacto debido al sobretrazado de algunos puntos, pero no es probable que sesgue mucho las DE relativas).
![Figure 2: horizontally smeared plot.]()
Hay una forma definida de cuña en los puntos manchados, estrechándose de izquierda a derecha. (El hecho de entrecerrar los ojos ante un gráfico a veces puede ayudar a resaltar esa gestalt impresión de un gráfico de dispersión, siempre que tenga muchos puntos).
La media (mostrada abajo en azul) y la media más o menos un múltiplo adecuado de la raíz cuadrada de la varianza (en rojo y dorado) trazarán la ubicación y los límites típicos de los residuos.
![Figure 3: Traces imposed on the original plot.]()
Elegí un múltiplo diseñado para situar un 5% de los puntos por encima de la traza superior y otro 5% por debajo de la traza inferior.
Con la práctica se puede véase tales rastros examinando de cerca la propia trama; no es necesario hacer cálculos. Escaneando de izquierda a derecha, estima el centro de cada columna vertical de puntos. Estima su dispersión. Infla un poco tus estimaciones de dispersión donde haya relativamente menos puntos, ya que no han tenido la oportunidad de mostrar toda su dispersión. Al mismo tiempo, descuenta tus estimaciones (es decir, no les des mucha credibilidad) en las zonas en las que hay muy pocos puntos, porque tus estimaciones son muy inciertas allí.
Busque patrones claros y consistentes de cambios en la dispersión. En la figura anterior, el trazo superior (rojo) y el inferior (dorado) parecen acercarse un poco más de izquierda a derecha, a medida que aumenta el valor ajustado. Esto puede hacerse más evidente si se traza la desviación estándar. Las unidades no importan, pero el eje vertical debe empezar en cero para ofrecer una representación precisa de relativa tamaños de los diferenciales:
![Figure 4: Plot of SD against fitted value.]()
Esto confirma la impresión inicial de una DS decreciente con el aumento del valor ajustado. En general, la desviación estándar se reduce a la mitad a medida que se recorre de izquierda a derecha. (El ligero aumento de la derecha puede descartarse, ya que está asociado a pocos puntos de datos). Esta es una forma clásica de heteroscedasticidad: la dispersión cambia sistemáticamente con el valor ajustado.
El uso de variables ficticias en una regresión múltiple no introducirá heteroscedasticidad. A menudo la reducirá, al resolver los grupos de residuos superpuestos en grupos separados.
Que la heteroscedasticidad sea realmente un problema depende del objetivo del análisis, del método de regresión empleado, de la información que se extraiga de los resultados y de la naturaleza de los datos.
3 votos
Cesare, creo que estás confundiendo la homo- con la heteroscedasticidad.
3 votos
El efecto de las variables ficticias es que los residuos tienden a formar líneas verticales: esto es especialmente evidente para los valores ajustados más bajos. El gráfico es algo inadecuado, ya que cada punto puede representar múltiples valores coincidentes, pero muestra cierta tendencia a una menor dispersión vertical en los valores ajustados más altos (pero no por mucho: esa apariencia se debe en parte al hecho de que hay menos residuos en los valores más altos). Sin embargo, lo que se haga al respecto -si es que se hace algo- depende de la naturaleza de los datos y de lo que se intente aprender. ¿Quizás podrías compartir alguna información al respecto?
0 votos
Estoy tratando de aprender el efecto de estos maniquíes binarios en la inversión. La única variable independiente continua es la edad, el resto son variables binarias o dummies aditivas. Sí, me refiero a la heteroscedasticidad.
2 votos
En una suposición, usted utilizó
rvfplot
en Stata para este gráfico. Puede tener una idea de la sobretraza utilizando las opcionesms(oh) jitter(1)
.0 votos
@Nick Cox Gracias por tu sugerencia, efectivamente la trama está ahora más clara. Hay bastantes puntos superpuestos.
0 votos
¿Concluiría eso que hay heteroscedasticidad?
2 votos
@whuber lo ha resumido bien, como siempre. Este gráfico por sí solo no me haría pensar que mi modelo está muy equivocado. Comentario de Stata:
rvfplot2
tiene más flexibilidad quervfplot
pero hay que instalarlo. Utilicesearch rvfplot2
y utilice la última versión del Stata Journal.