3 votos

Se requiere reducción de variables para Random Forest, Boosting, regularización L1, L2

Tengo cerca de 10,000 variables. Sé que random forest/XGB elige el número de variables al azar para construir el árbol. También la regularización se encarga de la importancia de la variable por su coeficiente.

Pero ¿todavía necesito hacer EDA/univariado/bivariado y todo para reducir las variables como primer paso? Si es así, ¿por qué? Ya que entiendo que el algoritmo anterior elegirá la variable importante por sí mismo y se llama algoritmo de ML porque no requiere intervención manual hasta ese punto.

He visto que si doy variables limitadas como entrada a mi Random Forest, puede funcionar mejor. Por favor, explique.

4voto

science Puntos 1

como entiendo que el algoritmo anterior seleccionará la variable importante por sí mismo y se llama algoritmo de ML porque no requiere intervención manual hasta ese punto.

Se llama ML porque el algoritmo aprende por sí mismo algunos patrones difíciles al mirar muchos datos, y aprendiendo cuando obtiene una predicción incorrecta, trabajando hacia el objetivo de un buen rendimiento en general.

Todavía necesitas señalarlo en la dirección correcta. O al menos observar de cerca lo que "aprende". No es magia, afortunadamente.

Un buen proceso de análisis siempre comienza con algo de EDA, porque aprendes por ejemplo qué variables son más interesantes en términos de lo que está relacionado con el resultado y lo que no lo está.

Esos algoritmos simplemente son "no lo suficientemente buenos" como para simplemente desechar la información que reciben cuando ven muchas variables ruidosas. Afortunadamente, todavía hay necesidad de un Científico de Datos después de todo.

RF y XGB te dicen que algunas variables tienen baja importancia, eso es correcto, pero porque utilizan aleatorización durante el proceso todavía pueden construir un árbol que utilice todas las variables ruidosas (no correlacionadas con el resultado) más una buena variable (altamente correlacionada).

Esto está relacionado en cierta medida con la maldición de la dimensionalidad también.

Entonces, no, el algoritmo no seleccionará las variables importantes por sí solo, utilizará todo lo que le arrojes en la olla para lograr su objetivo (alto rendimiento). Pero se perderá si el espacio de hipótesis es demasiado grande (lo cual lo es para 10k variables).

Y no alcanzará su máximo potencial, que se alcanza a través de ingeniería de características y selección de características, incluso después de un primer modelo donde proporcionas todas tus variables (por ejemplo Lasso seguido de Random Forest).

1voto

roberto Puntos 1

No es necesario reducir las variables para RF / XGB, ya que estos métodos funcionan incluso con un gran número de variables y seleccionan las importantes basándose en los puntajes de importancia. Sin embargo, debido a la maldición de la dimensionalidad, puede ser mejor eliminar las variables ruidosas ya que los modelos deberían funcionar mejor en este caso, aunque no está garantizado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X