3 votos

¿Debo excluir las variables predictoras si se utilizan para crear una nueva?

Tengo un conjunto de datos que incluye raza, sexo, ingresos y tamaño de la familia. Además, se incluye una variable para el nivel de "escala móvil de tarifas", que se determina en función de los ingresos y el tamaño de la familia. ¿Deben excluirse los ingresos y el tamaño de la familia al ajustar los datos a un modelo logit? ¿O debería incluir primero todas las variables, examinar las correlaciones y luego realizar un procedimiento de selección de características para determinar si incluir/excluir los ingresos y el tamaño de la familia?

X1: Sexo X2: Tamaño de la familia X3: Ingresos X4: Nivel (determinado por X2 y X3)

2voto

Zizzencs Puntos 1358

Si incluyes todas las variables es casi seguro que obtendrás una alta colinealidad. En mi opinión, el mejor diagnóstico para esto es el índice de condición; sin embargo, con variables no continuas puede que le sirva mejor algo como el paquete 'perturb' en R . O, simplemente, puede suponer que los modelos tendrían un problema. (Sobre todo porque los niveles del índice de condición que son problemáticos para la regresión logística no están, que yo sepa, bien establecidos).

Puede comparar modelos con diferentes combinaciones de variables: a) Sólo ingresos b) Sólo tamaño de la familia c) Ingresos y tamaño de la familia y d) Nivel.

Yo basaría la comparación de modelos, al menos en parte, en cuestiones sustantivas; complementadas con el AIC o el BIC o algún otro CI. Sin embargo, al excluir el nivel también se pueden examinar las interacciones entre los ingresos y el tamaño de la familia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X