33 votos

¿Por qué es necesaria la selección de variables?

Los procedimientos habituales de selección de variables basados en los datos (por ejemplo, hacia adelante, hacia atrás, por pasos, todos los subconjuntos) tienden a dar lugar a modelos con propiedades indeseables, entre ellas:

  1. Coeficientes desviados de cero.
  2. Los errores estándar que son demasiado pequeños y los intervalos de confianza que son demasiado estrechos.
  3. Estadísticas de prueba y valores p que no tienen el significado anunciado.
  4. Estimaciones del ajuste del modelo que son demasiado optimistas.
  5. Incluye términos que pueden carecer de sentido (por ejemplo, la exclusión de términos de orden inferior de orden inferior).

Sin embargo, los procedimientos de selección de variables persisten. Dados los problemas de la selección de variables, ¿por qué son necesarios estos procedimientos? ¿Qué motiva su uso?

Algunas propuestas para iniciar el debate....

  • ¿El deseo de obtener coeficientes de regresión interpretables? (¿Extraviado en un modelo con muchos IVs?)
  • ¿Eliminar la varianza introducida por variables irrelevantes?
  • ¿Eliminar las covarianzas/redundancias innecesarias entre las variables independientes?
  • Reducir el número de estimaciones de los parámetros (cuestiones de potencia, tamaño de la muestra)

¿Hay otros? ¿Los problemas que abordan las técnicas de selección de variables son más o menos importantes que los problemas que introducen los procedimientos de selección de variables? ¿Cuándo deben utilizarse? ¿Cuándo no deben utilizarse?

19voto

dan90266 Puntos 609

La selección de variables (sin penalización) sólo empeora las cosas. La selección de variables no tiene casi ninguna posibilidad de encontrar las variables "correctas", y da como resultado una gran sobreestimación de los efectos de las variables restantes y una enorme subestimación de los errores estándar. Es un error creer que la selección de variables realizada de la forma habitual ayuda a sortear el problema de "p grande, n pequeño". La conclusión es que el modelo final es engañoso en todos los sentidos. Esto está relacionado con una afirmación sorprendente que leí en un artículo de epidemiología: "No teníamos un tamaño de muestra adecuado para desarrollar un modelo multivariable, así que en su lugar realizamos todas las pruebas posibles para tablas de 2x2".

Cada vez que se utiliza el conjunto de datos en cuestión para eliminar variables, mientras se hace uso de Y para tomar la decisión, todas las cantidades estadísticas serán distorsionadas. La selección típica de variables es un espejismo.

Editar (Copiando los comentarios de abajo ocultos por el pliegue)

No quiero ser egoísta pero mi libro Estrategias de modelización de la regresión profundiza en este tema. Los materiales en línea, incluidos los folletos, pueden encontrarse en mi página web . Algunos métodos disponibles son $L_2$ penalización (regresión de cresta), $L_1$ penalización (lazo), y la llamada red elástica (combinación de $L_1$ y $L_2$ ). O utilizar la reducción de datos (ciegos a la respuesta $Y$ ) antes de hacer la regresión. Mi libro dedica más espacio a esto que a la penalización.

14voto

En primer lugar, las desventajas que mencionas son los efectos de la selección de características hecho mal es decir, sobreajustado, inacabado o sobrepasado.

El SL "ideal" tiene dos pasos; el primero es la eliminación de todas las variables no relacionadas con el VD (el llamado todo lo pertinente problema, tarea muy dura, no relacionada con el modelo/clasificador utilizado), la segunda es limitar el conjunto a sólo aquellas variables que pueden ser utilizadas de forma óptima por el modelo (por ejemplo $e^Y$ y $Y$ son igualmente buenos para explicar $Y$ , pero el modelo lineal más bien fallará al utilizar $e^Y$ en el caso general) -- éste se llama óptimo mínimo .

Todos los niveles relevantes ofrecen una visión de lo que realmente impulsa el proceso dado, por lo que tienen valor explicativo. El nivel óptimo mínimo (por diseño) proporciona un modelo no sobreajustado que trabaja con datos lo más limpios posible.

Los servicios financieros del mundo real sólo quieren alcanzar uno de esos objetivos (normalmente el segundo).

10voto

Boris Tsirelson Puntos 191

La selección de variables es necesaria porque la mayoría de los modelos no manejan bien un gran número de variables irrelevantes. Estas variables sólo introducirán ruido en el modelo o, peor aún, provocarán un ajuste excesivo. Es una buena idea excluir estas variables del análisis.

Además, no se pueden incluir todas las variables que existen en cada análisis, porque hay un número infinito de ellas. En algún momento hay que trazar la línea, y es bueno hacerlo de forma rigurosa. De ahí toda la discusión sobre la selección de variables.

La mayoría de los problemas con la selección de variables se pueden resolver mediante la validación cruzada, o utilizando un modelo con penalización y selección de características incorporadas (como la red elástica para modelos lineales).

Si está interesado en algunos resultados empíricos relacionados con las variables múltiples que provocan un ajuste excesivo, consulte los resultados del No te sobreajustes competencia en Kaggle.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X