Intentaré responder de la forma más sencilla. Cada uno de esos problemas tiene su propio origen principal:
Sobreajuste: Los datos tienen ruido, lo que significa que hay algunas desviaciones de la realidad (debido a errores de medición, factores aleatorios influyentes, variables no observadas y correlaciones basura) que nos dificultan ver su verdadera relación con nuestros factores explicativos. Además, no suele ser completa (no tenemos ejemplos de todo).
Por ejemplo, supongamos que intento clasificar a niños y niñas en función de su estatura, porque es la única información que tengo sobre ellos. Todos sabemos que, aunque los chicos son más altos de media que las chicas, hay una enorme región de solapamiento, lo que hace imposible separarlos perfectamente sólo con esa información. Dependiendo de la densidad de los datos, una muestra suficientemente complejo En esta tarea, el modelo podría lograr un porcentaje de aciertos superior al teóricamente posible en la formación porque podría trazar límites que permitieran que algunos puntos se mantuvieran aislados por sí mismos. Así, si sólo tenemos una persona que mide 2,04 metros y es una mujer, el modelo podría dibujar un pequeño círculo alrededor de esa zona, lo que significaría que una persona al azar que mida 2,04 metros tiene más probabilidades de ser una mujer.
La razón subyacente de todo esto es confiar demasiado en los datos de entrenamiento (y en el ejemplo, el modelo dice que como no hay ningún hombre con 2,04 de altura, entonces sólo es posible para las mujeres).
Insuficiente es el problema opuesto, en el que el modelo no reconoce las complejidades reales de nuestros datos (es decir, los cambios no aleatorios de nuestros datos). El modelo asume que el ruido es mayor de lo que realmente es y, por tanto, utiliza una forma demasiado simplista. Así, si el conjunto de datos tiene muchas más chicas que chicos por la razón que sea, el modelo podría simplemente clasificarlos a todos como chicas.
En este caso, el modelo no confiaba lo suficiente en los datos y acaba de asumir que las desviaciones son todo ruido (y en el ejemplo, el modelo asume que los chicos simplemente no existen).
En resumidas cuentas, nos enfrentamos a estos problemas porque:
- No tenemos información completa.
- No sabemos hasta qué punto los datos son ruidosos (no sabemos hasta qué punto debemos fiarnos de ellos).
- No conocemos de antemano la función subyacente que generó nuestros datos y, por tanto, la complejidad óptima del modelo.
1 votos
Puede que encuentres ¿Cuál es un ejemplo real de "sobreajuste"? útil