Tengo un conjunto de datos que incluye raza, sexo, ingresos y tamaño de la familia. Además, se incluye una variable para el nivel de "escala móvil de tarifas", que se determina en función de los ingresos y el tamaño de la familia. ¿Deben excluirse los ingresos y el tamaño de la familia al ajustar los datos a un modelo logit? ¿O debería incluir primero todas las variables, examinar las correlaciones y luego realizar un procedimiento de selección de características para determinar si incluir/excluir los ingresos y el tamaño de la familia?
X1: Sexo X2: Tamaño de la familia X3: Ingresos X4: Nivel (determinado por X2 y X3)