2 votos

¿Pueden justificarse las variables colineales porque ambas "importan"?

Ligeramente relacionado con preguntas anteriores por otros, pero más teórico/hipotético.

¿Existe una frase aceptada, o tal vez un argumento decente al que pueda remitirme amablemente, para incluir dos variables independientes que son algo colineales "debido a la forma en que es el mundo", cuando todavía quiere incluir los efectos de ambas porque siente (por razones teóricas), que ambas son importantes?

Supongamos que se hace una regresión para predecir las tasas de suicidio (entre 100 ciudades), y se quiere incluir tanto la pobreza de ingresos (media de la ciudad) como el porcentaje de hogares con agua corriente (por ciudad), entre otras variables. Ahora estas dos variables van juntas, quizás correlacionadas a ".8". Entendemos por qué están correlacionadas positivamente, y entendemos que presentarán una puntuación VIF bastante alta. Digamos un VIF superior a 10. Por lo tanto, mi lectura sugiere que debería eliminar una de las dos variables. Pero, seguramente, hay un argumento para decir que también miden cosas sutilmente diferentes.

Entonces, ¿hay una forma estándar de explicar que uno "sabe que dos variables serán colineales y estarán correlacionadas, porque así son las cosas en la vida real", pero que, sin embargo, conserva ambas porque no son, en realidad, afines, e introducen un matiz importante en una regresión?

3voto

BeastX-Men Puntos 6

Los argumentos en contra de la inclusión de variables altamente correlacionadas, que conducen a la colinealidad en el problema de regresión, son argumentos matemáticos/estadísticos. Si dos variables están muy correlacionadas, es más difícil para el modelo separar la contribución explicativa de estas dos variables entre sí. Por ejemplo, si se incluye la renta bruta y la renta neta en el modelo (lo que también es difícil de justificar con un "argumento del mundo real"), entonces el modelo no sabe si todo el efecto procede de la renta bruta, y el efecto cero de la renta neta, o viceversa, o una mezcla de ambas. Esto se expresaría en intervalos de confianza muy amplios para los parámetros asociados.

No obstante, podría estar justificado incluir variables correlacionadas hasta cierto punto. Incluso podría justificarse la inclusión de la renta bruta así como de la neta (aunque es poco probable), si el importe del impuesto sobre la renta tiene un poder explicativo muy elevado, entonces el modelo formaría la diferencia de ambos valores.

Esencialmente se trata de un compromiso entre los efectos negativos de la colinealidad y el efecto positivo del poder explicativo adicional de la variable adicional.

Edith: por supuesto, en mi ejemplo sería mejor incluir directamente sólo el impuesto sobre la renta como variable.

0voto

Semoi Puntos 133

Como ya has dicho, hay argumentos matemáticos/estadísticos para excluir uno de los dos parámetros colineales. Por lo tanto, a menos que tenga un fuerte argumento que debe excluir uno.

Aquí un ejemplo, para un argumento fuerte: Supongamos que usted está interesado en saber si alguien está embarazada o no. Dos variables de entrada podrían ser

  1. ¿Toma la persona la píldora anticonceptiva?
  2. ¿La persona es hombre o mujer?

Supongo que existe una fuerte colinealidad entre estos dos parámetros de entrada. No obstante, sería conveniente incluir ambos parámetros en el modelo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X