2 votos

¿Deberían descartarse las variables explicativas redundantes?

Supongamos que queremos ajustar un modelo para predecir una variable respuesta dada $Y$. Supongamos que algunas variables explicativas son redundantes. Se considera que una variable explicativa es redundante si proporciona información similar a otra variable explicativa disponible. Por ejemplo, si $x_1$ es una variable de conteo, una variable redundante sería la función indicadora: $x_2=1(x_1>=1)$. Si $x_3$ es una variable cuantitativa no negativa, una variable redundante sería la función indicadora: $x_4=1(x_3>0).
Mis preguntas son:

  1. ¿Deberían descartarse las variables explicativas redundantes del conjunto de entrenamiento? Si es así, ¿por qué no podemos agregar todas las variables explicativas y permitir que los algoritmos de selección de variables (por ejemplo, método hacia adelante para modelos lineales, procedimiento de construcción MARS, lasso y la capacidad de selección de variables de CART) elijan qué variables valen la pena estar dentro del modelo y cuáles no?
  2. Si las variables explicativas redundantes deben eliminarse, ¿cuál es la forma correcta de proceder? ¿Debería agregar solo $x_1$ y $x_3$ (sin $x_2$ y $x_4)$, ver los resultados, luego agregar solo $x_2$ y $x_4$ (sin $x_1$ y $x_3)$, ver los resultados y finalmente decidir qué predictores usar?

Intuitivamente, no veo cómo el error de predicción puede disminuir al agregar más variables explicativas. En otras palabras, no entiendo por qué no deberíamos considerar también las variables explicativas redundantes. En cuanto a la inferencia, si los predictores redundantes no se descartan del conjunto de entrenamiento, ¿puedo obtener resultados contradictorios (por ejemplo, en un modelo lineal, un coeficiente de regresión positivo para $x_1$ pero un coeficiente negativo para $x_2$)? Si es así, ¿es esta la única razón por la que se deben eliminar los predictores redundantes?

3voto

dan90266 Puntos 609

A menos que los predictores sean casi completamente redundantes, mejor rendimiento predictivo resulta cuando los predictores competidores se combinan, en comparación con eliminar los predictores de antemano. Cuando la redundancia es muy alta, la eliminación de antemano puede ser una buena idea. La función redun del paquete Hmisc de R es un enfoque, que mide la redundancia utilizando un modelo no lineal aditivo flexible para predecir cada variable a partir de todas las variables (restantes).

Tenga en cuenta que la evaluación de la redundancia debe hacerse utilizando solo técnicas de aprendizaje no supervisado.

2voto

KhaaL Puntos 66

El problema que describes con un modelo lineal donde los coeficientes de características correlacionadas pueden cancelarse mutuamente, resultando en pares grandes positivos/negativos, se conoce como multicolinealidad y puede ser un problema, especialmente si la estructura de correlación cambia con el tiempo. Digo correlación aquí ya que requiere una relación lineal entre las variables.

Los problemas relacionados pueden surgir con relaciones no lineales entre características. A menudo la cantidad de ruido o información irrelevante en las características varía (por ejemplo, la altura es un indicador ruidoso de la edad en los niños) por lo que el mejor modelo utilizará solo las características que contienen la información relevante para el objetivo con el mínimo ruido (es mejor predecir "puede conducir" a partir de la edad que de la altura).

Los diversos algoritmos que describes están destinados a lidiar con esto hasta cierto punto.

Los bosques aleatorios son particularmente buenos en esto ya que internamente repiten el simple algoritmo de selección de características CART sobre copias de arranque del conjunto de datos. A menudo son lo más fácil de hacer funcionar en datos altamente dimensionales donde este tipo de problema es común/probable.

Hacer un paso explícito de reducción de dimensionalidad como PCA o algún tipo de aprendizaje de variedad no lineal también es común.

También hay varios métodos para hacer una selección explícita de características como paso de preprocesamiento, incluyendo cosas como el proceso iterativo de agregar y quitar características para ver cómo cambia el rendimiento.

Con cualquiera de estos métodos se debe tener cuidado de evitar el sobreajuste. La selección de características debe considerarse parte del proceso general de generación de modelos y realizarse y ajustarse dentro de la validación. Debe utilizarse un sistema de validación cruzada separado o anidado, de lo contrario las posibilidades de terminar con un rendimiento del modelo que no se generaliza a nuevos datos es alto (y aumenta con el número de características en el conjunto de datos).

2voto

Desde una perspectiva práctica, he experimentado que la mayoría de los métodos que mencionas (lasso, CART, MARS, etc.) eliminan predictores redundantes en cierta medida.

Sin embargo, incluso aplicando esos métodos, los predictores redundantes todavía pueden tener un impacto negativo en el rendimiento predictivo fuera de muestra. Además del sobreajuste, generalmente incluir todo tipo de predictores aumenta la relación ruido-señal. Y esto hace que sea más difícil para todo tipo de métodos crear un buen modelo predictivo, incluso para los métodos poderosos como random forests.

Por lo tanto, es importante reflexionar sobre el modelo que estás construyendo. Por otro lado, el ser humano que construye modelos no siempre sabrá qué variables son predictores razonables.

No hay almuerzo gratis aquí, desafortunadamente, y lo mejor suele ser experimentar mucho y aprender a conocer bien tus datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X