2 votos

¿Cuál es el efecto de tener una variable dependiente sesgada en el resultado del gráfico de dispersión?

El histograma de mi variable dependiente es el siguiente:

introduzca una descripción de la imagen aquí

¿Dibujo el gráfico de dispersión de mi variable dependiente e independiente, y el resultado es como la siguiente imagen? ¿Me pregunto si la asimetría de la variable dependiente puede afectar el resultado? ¡Parece que la relación no es lineal y tenemos muchos valores atípicos!

introduzca una descripción de la imagen aquí

1voto

GenericTypeTea Puntos 27689

Esto significa que tus estimaciones de Ventas como función de Visitas son más precisas para valores bajos de Ventas. Puedes ver eso reflejado en las bandas de confianza alrededor de la regresión suavizada (la línea curva roja), que son relativamente estrechas para Ventas promedio $\le$ 30, pero se ensanchan bastante después.

Por supuesto, el histograma de Visitas también está sesgado hacia la derecha, por lo que juntos esto significa que tus datos te están dando una idea confiable sobre cómo se relacionan estas dos variables solo para valores bajos de cada una.

1voto

AdamSane Puntos 1825

Es importante tener claro la diferencia entre la distribución marginal de $y$ y la distribución condicional. Es perfectamente posible que $y$ sea sesgado, pero que $y|x$ sea normal (digamos) --- pero la suposición no es acerca de $y$, es acerca de $y|x$.

Así que la asimetría en $y$ no es de por sí motivo de preocupación. Puede que no implique nada, e incluso si también está asociada con cierta asimetría en la distribución condicional, eso podría no afectar tanto tu estimación* (aunque podría afectar un poco tu inferencia, especialmente si los tamaños de muestra son pequeños; con tamaños de muestra grandes incluso esta preocupación desaparece).

* La recta de mínimos cuadrados seguirá siendo la mejor estimación lineal insesgada, por ejemplo, así que siempre y cuando no sea tan sesgada que los estimadores lineales como clase se vuelvan demasiado malos para ser sostenibles, los mejores de ellos deberían estar bien.

De mucho más preocupación:

1) tu visualización indica una fuerte heterocedasticidad. Esto impactará tu inferencia (intervalos de confianza y pruebas) sin importar cuán grande sea tu tamaño de muestra.

2) Claras señales de no linealidad. En particular, (mirando solo los puntos, ya que creo que la suavización no funcionó bien debido a otros problemas) la relación parece aumentar rápidamente en valores pequeños de $x$ (hasta aproximadamente 1500 por ejemplo) pero luego casi plana.

3) tu variable x tiene un valor atípico influyente (o potencialmente un punto influyente que podría ser un valor atípico, dependiendo de lo que se haga acerca de la heterocedasticidad y de cómo se modele la no linealidad).

Sugeriría mirar una transformación de $y$ en tu gráfico, no tanto por la asimetría en la distribución marginal, sino para reducir el impacto de (1), de modo que se puedan investigar con más detalle los problemas con (2) y (3).

Podrías considerar mirar uno o ambos de (i) log y vs x, y (ii) log y vs log x (este último podría ser ligeramente más útil). Esperaría que ninguno sea lineal, pero podrían ayudarte a elegir un modelo adecuado tanto para la relación entre las variables como para la distribución condicional de $y$ (especialmente en relación con su varianza).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X