Processing math: 100%

1 votos

Principiantes - ¿Añadir iterativamente términos al modelo de regresión?

Estoy aprendiendo sobre modelos de regresión a través del curso Coursera de Andrew Ng. Tengo una pregunta sobre la búsqueda automática de un buen modelo.

¿Tiene sentido (mi opinión es que no) añadir iterativamente términos, o cambiar iterativamente un modelo por otro diferente, y luego comprobar el R2 o MSE y ver cuál es el mejor?

Por ejemplo, si tienes un modelo como y = ax + b, y luego lo cambias por y=ax2+b y luego y=ax2+ax+b y seguir haciéndolo mientras se comprueba continuamente si es mejor o peor que los otros modelos.

Como he dicho, estoy empezando a aprender estas cosas, así que estoy seguro de que hay una mejor manera de hacer esto, pero esto acaba de aparecer en mi cabeza como una posibilidad.

1voto

FredFF Puntos 31

El enfoque que usted ha propuesto es una de las estrategias comunes de selección de características llamadas Selección por pasos hacia delante . Puede ver el enlace para ver un resumen de ésta y otras técnicas. Le sugiero encarecidamente que compruebe otras técnicas como PCA, Lasso, etc. En cualquier caso, voy a resumir la selección de pasos hacia adelante:

En el primer paso de los análisis, reunimos todas las características posibles (incluyendo sus exponentes como x21 y las interacciones x1x2 ) que creemos que sería útil en la regresión. A continuación, elegimos un pequeño subconjunto entre este posible conjunto de características. Una aproximación bruta sería entrenar nuestro modelo con todos los subconjuntos de características posibles. Sin embargo, como se puede adivinar, esto es computacionalmente muy caro. En su lugar, preferimos encontrar un buen camino a través de ellos. La técnica de selección paso a paso lo consigue de forma iterativa. En primer lugar, se empieza con un modelo de una sola variable con una sola característica y un intercepto. Para esta variable, hay que probar todas las características (entrenar el modelo) que se han reunido. A continuación, se elige la de mejor rendimiento. En este caso, la métrica de rendimiento podría ser R2 , MSE o cualquier otra cosa (incluyendo AIC,BIC ). Sin embargo, no olvide hacer esto en un conjunto de datos aislado (conjunto de prueba) que no se utiliza en la fase de entrenamiento.

Una vez que elija esta "mejor" característica, amplíe su modelo a dos variables y pruebe todas las características restantes en su conjunto de características para esta nueva ranura de características. Puede repetir esta operación hasta llegar a un modelo decente que funcione lo suficientemente bien y que no mejore con la adición de más características.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X