Los procedimientos habituales de selección de variables basados en los datos (por ejemplo, hacia adelante, hacia atrás, por pasos, todos los subconjuntos) tienden a dar lugar a modelos con propiedades indeseables, entre ellas:
- Coeficientes desviados de cero.
- Los errores estándar que son demasiado pequeños y los intervalos de confianza que son demasiado estrechos.
- Estadísticas de prueba y valores p que no tienen el significado anunciado.
- Estimaciones del ajuste del modelo que son demasiado optimistas.
- Incluye términos que pueden carecer de sentido (por ejemplo, la exclusión de términos de orden inferior de orden inferior).
Sin embargo, los procedimientos de selección de variables persisten. Dados los problemas de la selección de variables, ¿por qué son necesarios estos procedimientos? ¿Qué motiva su uso?
Algunas propuestas para iniciar el debate....
- ¿El deseo de obtener coeficientes de regresión interpretables? (¿Extraviado en un modelo con muchos IVs?)
- ¿Eliminar la varianza introducida por variables irrelevantes?
- ¿Eliminar las covarianzas/redundancias innecesarias entre las variables independientes?
- Reducir el número de estimaciones de los parámetros (cuestiones de potencia, tamaño de la muestra)
¿Hay otros? ¿Los problemas que abordan las técnicas de selección de variables son más o menos importantes que los problemas que introducen los procedimientos de selección de variables? ¿Cuándo deben utilizarse? ¿Cuándo no deben utilizarse?