14 votos

Modelos flexibles e inflexibles en el aprendizaje automático

Me encontré con una pregunta sencilla sobre la comparación de modelos flexibles (por ejemplo, splines) frente a modelos inflexibles (por ejemplo, regresión lineal) en diferentes escenarios. La pregunta es:

En general, ¿esperamos que el rendimiento de un método de aprendizaje estadístico flexible sea mejor o peor que el de un método inflexible cuando:

  1. El número de predictores $p$ es extremadamente grande, y el número de observaciones $n$ es pequeño?
  2. La varianza de los términos de error, es decir $^2 = \text{Var}(e)$ ¿es extremadamente alta?

Creo que para (1), cuando $n$ es pequeño, los modelos inflexibles son mejores (no estoy seguro). Para (2), no sé qué modelo es (relativamente) mejor.

0 votos

El error de generalización no es ni mucho menos trivial. Por desgracia, las reglas generales no ayudan mucho en este sentido.

8 votos

Parece que esto es de James, Witten, Hastie, Tibshirani's Introduction to Statistical Learning

1 votos

1. Un método flexible se ajustaría en exceso al reducido número de observaciones. 2. Un método flexible se ajusta al ruido en los términos de error y aumenta la varianza.

0voto

user301551 Puntos 71
  1. Si n es pequeño y p es muy grande, tenemos un conjunto de observaciones pequeño en el que el modelo flexible podría encontrar relaciones inexistentes debido al elevado número de predictores.

  2. Si la var de los términos de error es muy alta, los modelos flexibles se adelantarán y tratarán de ajustar los términos de error no explicados, por lo que deberíamos utilizar un método más bien inflexible.

0voto

xidgel Puntos 113

Parte a: Dado que la muestra (datos de entrenamiento) es pequeña, ambos modelos no captarán muy bien la verdadera relación subyacente en comparación con el caso en el que el tamaño de la muestra es grande, ya que una muestra grande significa que los datos de entrenamiento se parecen mucho a los datos de la población subyacente. Por lo tanto, es probable que los datos de prueba sean muy diferentes de los datos de la muestra en este caso.

Con los datos de prueba (datos que realmente nos interesan), los modelos flexibles tendrán un rendimiento inferior, ya que se ajustan a un pequeño conjunto de datos de entrenamiento. Con un gran número de predictores, el sobreajuste será de nuevo muy alto (mucho más alto en los modelos flexibles en comparación con los inflexibles) y un cambio en los datos de entrada puede dar resultados muy poco fiables e inexactos. De nuevo, esto hará que los modelos flexibles tengan un rendimiento inferior al de los modelos inflexibles.

Parte b: Si la varianza de los términos de error es muy alta, los modelos flexibles tratarán de ajustar el error irreducible (ruido) en el modelo. Este sería el caso de los modelos inflexibles también, pero los resultados serán muy drásticos en el caso de los modelos flexibles. Por tanto, en ese caso deberíamos utilizar un método inflexible.

-1voto

Para la segunda pregunta creo que la respuesta es que ambos actuarán por igual (suponiendo que esos errores sean irreductibles, es decir, este error). Hay más información en Introducción al aprendizaje estadístico en la página 18 (tema: Por qué estimar $f$ ) donde el autor explica que

La precisión de $Y$ como una predicción para $Y$ depende de dos cantidades, que llamaremos error reducible y el error irreducible . En general, $\hat f$ no será una estimación perfecta para $f$ y esta inexactitud introducirá algún error. Este error es reducible porque podemos mejorar potencialmente la precisión de $\hat f$ utilizando la técnica de aprendizaje estadístico más adecuada para estimar $\hat f$ . Sin embargo, incluso si fuera posible formar una estimación perfecta para $f$ de modo que nuestra respuesta estimada adoptó la forma $\hat Y = f(X)$ nuestra predicción seguiría teniendo algún error. Esto se debe a que $Y$ también es una función de $\epsilon$ que, por definición, no puede predecirse utilizando $X$ . Por lo tanto, la variabilidad asociada a $\epsilon$ también afecta a la precisión de nuestras predicciones. Esto se conoce como el irreducible error, porque no importa lo bien que estimemos $f$ no podemos reducir el error introducido por $\epsilon$ .

0 votos

No entiendo esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X