39 votos

¿Es el sobreajuste "mejor" que el infraajuste?

He comprendido los conceptos principales de la sobreadaptación y la inadaptación, aunque algunas de las razones por las que se producen no me resulten tan claras.

Pero lo que me pregunto es: ¿no es "mejor" el sobreajuste que el infraajuste?

Si comparamos lo bien que lo hace el modelo en cada conjunto de datos, obtendríamos algo así:

Sobreajuste: Entrenamiento: bueno vs. Prueba: malo

El desajuste: Entrenamiento: malo vs. malo Prueba: mala

Si echamos un vistazo a los resultados de cada escenario en los datos de entrenamiento y de prueba, parece que para el escenario de sobreajuste, el modelo funciona al menos bien en los datos de entrenamiento.

El texto en negrita es mi intuición de que, cuando el modelo lo hace mal en los datos de entrenamiento, también lo hará en los datos de prueba, que en general me parecen peores.

4voto

Assembler Puntos 545

Las respuestas hasta ahora son razonables en el contexto de la regresión lineal. Pero en un contexto de aprendizaje profundo solemos entrenar hasta el punto de sobreajuste (si tenemos los recursos para ello); entonces volvemos atrás y utilizamos el modelo guardado más recientemente antes de eso. Es decir, el infraajuste sólo significa "todavía no está ahí, continúa".

También hay que tener en cuenta que la métrica que se utiliza para medir el sobreajuste o el infraajuste puede no ser la ideal. Por ejemplo, he entrenado algoritmos de negociación financiera con el MSE, porque es rápido de evaluar. Pero la verdadera medida de lo bueno que es el modelo sería un backtest sobre los datos, en condiciones de negociación. A veces, el modelo infraajustado o sobreajustado lo hace mejor que el que minimiza el MSE.

En los últimos modelos de NLG (generación de lenguaje natural), también hemos errado deliberadamente en el lado del sobreajuste, después de que las pruebas a ciegas descubrieran que los usuarios decían que eran mejores. Se trata de nuevo de la métrica, pero creo que también se relaciona con el aspecto de la memorización que Haitao Du mencionó en su respuesta enlazada . Por lo tanto, un sesgo alto y una varianza baja ("infraajustada") pueden significar que dice tonterías, mientras que un sesgo bajo y una varianza alta pueden significar que suena igual que los datos de entrenamiento. Como lo haría un humano.

En resumen, depende .

3voto

Jason Puntos 8

Imagina que eres un algoritmo de ML que debe salir bien en un examen. Conoces el temario y, por tanto, tienes un conjunto de problemas de ejemplo (con soluciones) con los que puedes practicar. Ahora, tienes tres opciones:

  1. Overfit : Memorizar las soluciones de los problemas de práctica sin entender realmente cómo se ha llegado a la solución. Esto te llevará al fracaso en el examen.

  2. Underfit : Resuelve el problema más sencillo con pocas habilidades transferibles. Resolverá algunos problemas en el examen, pero no será suficiente para superar la puntuación del umbral de aprobación. Sin embargo, hay margen de mejora .

  3. En algún lugar entre Overfit y Underfit : Se practican problemas que aparecieron en el examen de años anteriores. Como estos problemas son más representativos de los que verás en tu examen de mañana, hay más probabilidades de que te vaya bien. Que es lo que quieres. Que es exactamente el rendimiento que busca una máquina.

3voto

Matt Puntos 588

La parsimonia suele ser una característica deseable en un modelo de aprendizaje automático; esto se relaciona con la idea de la Navaja de Occam, según la cual, entre los modelos que producen resultados igualmente buenos (o malos), se debe preferir generalmente el más sencillo. Esto se lleva a cabo explícitamente en ciertos enfoques de selección de modelos, como la Longitud de Descripción Mínima, que describe el "coste" de un modelo en relación tanto con lo bien que el modelo se ajusta a los datos, como con la complejidad del modelo. En el caso de dos modelos que se ajustan mal a un conjunto de datos, se prefiere el modelo más sencillo. Los modelos sobreajustados suelen requerir parámetros adicionales que añaden un "coste" a un modelo sin ningún beneficio discernible, por lo que suele ser mejor un modelo infraajustado que produzca un error similar.

En cierto modo, un modelo de sobreajuste es como un estudiante que memoriza la secuencia de respuestas en un examen práctico de opción múltiple, aplica esa misma secuencia al examen real y fracasa. El modelo de adaptación insuficiente, por otro lado, es el estudiante que simplemente elige la "C" para cada respuesta, y lo hace tan mal en la prueba real como en la práctica. El estudiante sobreajustado se ve "sorprendido" por su bajo rendimiento, y ha hecho mucho trabajo para no obtener ningún beneficio. El estudiante underfit sabe que su estrategia no va a funcionar bien, pero puede poner en práctica esa estrategia con mucha facilidad. Ambos estudiantes suspenden el examen, pero al menos uno lo sabía de antemano y no desperdició mucho esfuerzo para nada.

3voto

Doug Lambert Puntos 1

Probablemente no sea tu situación, pero puedes usar el aprendizaje automático como memoria. Supongamos que tienes algunas entradas en las que puedes entrenar en todo el dominio de entradas. Es decir, no hay ninguna entrada posible que no haya sido conocida y utilizada previamente para el entrenamiento. De esta manera, siempre se puede generar la salida correcta. Si el concepto sobre el que quieres entrenar puede expresarse de esta manera, entonces el sobreentrenamiento es memorístico y, en situaciones limitadas, puede ser útil. De lo contrario, como se ha dicho en otros comentarios, el sobreentrenamiento significa que se está sesgado a los datos de entrenamiento y que se obtendrán malos resultados con cualquier cosa que no esté en el conjunto de entrenamiento. El objetivo es la generalización, que el modelo comprenda el concepto, no que lo memorice. La respuesta del programa de estudios anterior lo explica bien.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X