Necesito una guía general sobre cuáles son los enfoques adecuados para selección automatizada de características en la regresión múltiple con variables categóricas .
En mi caso, tengo varias variables independientes numéricas y categóricas. Quiero predecir un valor numérico y voy a hacer uso de la regresión múltiple, incluyendo estas variables categóricas según la estrategia de codificación de efectos (encontrar codificación de efectos ref. aquí ).
Mis preguntas son:
-
Estoy familiarizado con los métodos de selección de características por pasos que he utilizado en los modelos de regresión logística. ¿Es probable que también tengan éxito en este caso?
-
¿Cuándo es el momento de aplicar estos métodos automatizados de selección de características? Es decir: si los ejecuto después de introduciendo variables transformadas por el efecto, existe la posibilidad de que el método rechace, por ejemplo una parte de variables transformadas por el efecto, extraídas de un variable categórica (esta variable categórica es no está totalmente representado, entonces ), ¿no es así? ¿Es esto un problema?
-
¿Cuáles son los métodos automatizados de selección de características más populares cuando se trata de variables categóricas?