22 votos

Sobreajuste e infraajuste

He investigado un poco sobre el sobreajuste y el infraajuste, y he comprendido qué son exactamente, pero no encuentro las razones.

¿Cuáles son las principales razones de la sobreadaptación y la inadaptación?

¿Por qué nos enfrentamos a estos dos problemas a la hora de entrenar un modelo?

1 votos

32voto

lebesque Puntos 11

Intentaré responder de la forma más sencilla. Cada uno de esos problemas tiene su propio origen principal:

Sobreajuste: Los datos tienen ruido, lo que significa que hay algunas desviaciones de la realidad (debido a errores de medición, factores aleatorios influyentes, variables no observadas y correlaciones basura) que nos dificultan ver su verdadera relación con nuestros factores explicativos. Además, no suele ser completa (no tenemos ejemplos de todo).

Por ejemplo, supongamos que intento clasificar a niños y niñas en función de su estatura, porque es la única información que tengo sobre ellos. Todos sabemos que, aunque los chicos son más altos de media que las chicas, hay una enorme región de solapamiento, lo que hace imposible separarlos perfectamente sólo con esa información. Dependiendo de la densidad de los datos, una muestra suficientemente complejo En esta tarea, el modelo podría lograr un porcentaje de aciertos superior al teóricamente posible en la formación porque podría trazar límites que permitieran que algunos puntos se mantuvieran aislados por sí mismos. Así, si sólo tenemos una persona que mide 2,04 metros y es una mujer, el modelo podría dibujar un pequeño círculo alrededor de esa zona, lo que significaría que una persona al azar que mida 2,04 metros tiene más probabilidades de ser una mujer.

La razón subyacente de todo esto es confiar demasiado en los datos de entrenamiento (y en el ejemplo, el modelo dice que como no hay ningún hombre con 2,04 de altura, entonces sólo es posible para las mujeres).

Insuficiente es el problema opuesto, en el que el modelo no reconoce las complejidades reales de nuestros datos (es decir, los cambios no aleatorios de nuestros datos). El modelo asume que el ruido es mayor de lo que realmente es y, por tanto, utiliza una forma demasiado simplista. Así, si el conjunto de datos tiene muchas más chicas que chicos por la razón que sea, el modelo podría simplemente clasificarlos a todos como chicas.

En este caso, el modelo no confiaba lo suficiente en los datos y acaba de asumir que las desviaciones son todo ruido (y en el ejemplo, el modelo asume que los chicos simplemente no existen).

En resumidas cuentas, nos enfrentamos a estos problemas porque:

  • No tenemos información completa.
  • No sabemos hasta qué punto los datos son ruidosos (no sabemos hasta qué punto debemos fiarnos de ellos).
  • No conocemos de antemano la función subyacente que generó nuestros datos y, por tanto, la complejidad óptima del modelo.

3 votos

Bienvenido a CV. buena respuesta, que me hace querer del mi respuesta ...

1 votos

Creo que la parte relativa a "trazar límites" y "círculos" es un poco confusa...

0 votos

Yo sólo diría que el ejemplo de la predicción de la estatura entre hombres y mujeres no se ajusta en exceso, sino en defecto.

6voto

Chris Cudmore Puntos 634

Se habla de sobreajuste cuando un modelo estima muy bien la variable que se está modelando en los datos originales, pero no lo hace bien en el nuevo conjunto de datos (retención, validación cruzada, previsión, etc.). Hay demasiadas variables o estimadores en el modelo (variables ficticias, etc.) que lo hacen demasiado sensible al ruido de los datos originales. Como resultado del exceso de ajuste al ruido de los datos originales, el modelo predice mal.

Se habla de infraajuste cuando un modelo no estima bien la variable ni en los datos originales ni en los nuevos. A su modelo le faltan algunas variables que son necesarias para estimar y predecir mejor el comportamiento de su variable dependiente.

El equilibrio entre la sobreadaptación y la inadaptación es difícil y a veces no tiene una línea de meta clara. En la modelización de series temporales econométricas, este problema se resuelve bastante bien con modelos de regularización (LASSO, Ridge Regression, Elastic-Net) que están diseñados específicamente para reducir el sobreajuste mediante la reducción del número de variables del modelo, la reducción de la sensibilidad de los coeficientes a los datos o una combinación de ambas.

6voto

lnathan Puntos 123

Tal vez durante tu investigación te hayas topado con la siguiente ecuación:

Error = IrreducibleError + Bias² + Variance .

¿Por qué nos enfrentamos a estos dos problemas en el entrenamiento de un modelo?

El problema de aprendizaje en sí es básicamente un compromiso entre sesgo y desviación .

¿Cuáles son las principales razones de la sobreadaptación y la inadaptación?

Corto: Ruido.

Largo: El error irreducible : Errores de medición/fluctuaciones en los datos, así como la parte de la función objetivo que no puede ser representada por el modelo. Volver a medir la variable objetivo o cambiar el espacio de hipótesis (es decir, seleccionar un modelo diferente) modifica este componente.

Editar (para enlazar con las otras respuestas): Rendimiento del modelo al variar la complejidad:

.

donde errorD es el error sobre toda la distribución D (estimado en la práctica con conjuntos de pruebas).

4 votos

Creo que debería definir su terminología. OP no utiliza los términos "sesgo" o "varianza" en la pregunta, tú no utilizas los términos "sobreajuste" o "infraajuste" en tu respuesta (excepto en una cita de la pregunta). Creo que sería una respuesta mucho más clara si explicaras la relación entre estos términos.

4voto

Marc-Andre R. Puntos 789

Casi todos los problemas estadísticos pueden plantearse de la siguiente forma:

  1. Dados los datos $(y, x)$ encontrar $\hat{f}$ que produce $\hat{y}=\hat{f}(x)$ .

  2. Haga esto $\hat{f}$ lo más cercano posible a "true" $f$ donde $f$ se define como

$$y = f(x) + \varepsilon$$

La tentación es siempre hacer $\hat{f}$ producir $\hat{y}$ que se acercan mucho a los datos $y$ . Pero cuando llega un nuevo punto de datos, o utilizamos datos que no se utilizaron para construir $\hat{f}$ la predicción puede estar muy equivocada. Esto ocurre porque intentamos explicar $\varepsilon$ en lugar de $f$ . Cuando hacemos esto nos alejamos de la "verdadera" $f$ y por lo tanto cuando llega una nueva observación obtenemos una mala predicción. Es entonces cuando se produce el sobreajuste.

Por otra parte, cuando encontramos $\hat{f}$ la pregunta es siempre tal vez podemos conseguir un mejor $\tilde{f}$ que produce un mejor ajuste y se aproxima al "verdadero" $f$ ? Si es así, en el primer caso nos hemos ajustado mal.

Si consideramos el problema estadístico de este modo, el ajuste del modelo es siempre un equilibrio entre el ajuste insuficiente y el ajuste excesivo, y cualquier solución es siempre un compromiso. Nos enfrentamos a este problema porque nuestros datos son aleatorios y ruidosos.

2voto

David Puntos 41

¿Cuáles son las principales razones de la sobreadaptación y la inadaptación?

En caso de sobreajuste, el modelo es demasiado complejo para ajustarse bien a los datos de entrenamiento. Si el ajuste es insuficiente, el modelo es demasiado simple.

¿Por qué nos enfrentamos a estos dos problemas en el entrenamiento de un modelo?

Es difícil elegir el modelo y los parámetros "adecuados" para los datos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X