7 votos

¿Qué relación existe entre el sesgo, la varianza y el sobreajuste?

Soy bastante novato en el aprendizaje automático y, después de leer sobre el equilibrio entre sesgo y varianza y el ajuste excesivo o insuficiente, me han surgido varias preguntas:

  1. Si tengo un modelo con un 15% de error en el conjunto de entrenamiento y un 14% de error en el conjunto de validación, y otro modelo con un 5% de error en el conjunto de entrenamiento y un 13% de error en el conjunto de validación, entiendo que generalmente es mejor elegir el primer modelo (nótese que el 13% frente al 14% es pequeño pero no despreciable). ¿Por qué? ¿El bajo error de entrenamiento del segundo modelo indica que está más sobreajustado y, por tanto, probablemente daría peores resultados que el primero en datos no vistos?

  2. Por un lado, leo que para evitar el sobreajuste hay que tener, por ejemplo, menor profundidad de árbol o un valor alto en el parámetro de regulación. Pero, por otro lado, he leído que para evitar el sobreajuste hay que optimizar los parámetros en el conjunto de validación (y no en el conjunto de prueba) y mantener la puntuación del entrenamiento sólo un poco mejor que la puntuación de la prueba (como en mi primera pregunta). ¿Cómo se relacionan estos dos métodos? ¿Se refieren al mismo tipo de sobreajuste? ¿Cómo ayudan ambos a reducir el sobreajuste?

  3. en esta foto enter image description here (extraído de aquí ) se explica que para eta=0,1 (eta en este caso es la tasa de aprendizaje en XGBOOST) el modelo está infraajustado, y para eta=0,9 el modelo está sobreajustado. Puedo ver que para eta=0,9 el modelo está sobreajustado (ya que el error de prueba aumenta), pero a mí me parece que también para eta=0,1 el modelo está sobreajustado, ya que el error de prueba aumenta un poco mientras que el error de entrenamiento disminuye. ¿Qué se me escapa?

  4. Digamos que tengo 2 modelos de árbol. Uno tiene tree_depth=2 y un 10% de error, y el otro tiene tree_depth=7 y un error del 9,7% (por lo que es evidente que el primer modelo tiene menor complejidad que el segundo, pero éste es mejor por una cantidad pequeña pero no despreciable). He leído que se recomienda elegir el primer modelo en lugar del segundo, pero ¿por qué? ¿Es porque el primer modelo está probablemente menos sobreajustado? Y si es así, ¿por qué debería importarme si la complejidad reduce el error? ¿Tal vez porque el primer modelo probablemente tenga menos varianza?

Nota: le agradeceríamos que respondiera a una sola de estas preguntas.

Nota 2: No tengo conocimientos de estadística ni de matemáticas, por lo que agradecería mucho (cuando sea posible) un lenguaje sencillo.

1voto

En cuanto al número 3:

El modelo con eta = 0,9 muestra claramente sobreajuste, ya que cuanto más se entrena, más es capaz de predecir el conjunto de entrenamiento y más es incapaz de predecir el conjunto de prueba. Sólo puedo pensar que el modelo con eta = 0,1 está infraajustado porque, en comparación con otros valores de eta, es el que funciona peor. No sólo muestra más o menos lo mismo tendencia del error de prueba con eta 0,5, pero también muestra un peor error de entrenamiento.

Obsérvese que la pequeña perturbación en el error de la prueba es bastante normal (y puede ser causada y tratada como aleatoriedad) siempre que no muestre una tendencia creciente como en el modelo con eta = 0,9


En cuanto al número 5:

El juicio sobre si la reducción del 0,3% en el error merece la pena el coste de la complejidad del modelo depende del uso práctico. Si tuviera que elegir, dado un contexto arbitrario que realmente desconozco, elegiría la primera porque personalmente creo que la reducción de un 0,3% en el error no justifica añadir 5 más de profundidad al árbol y, por tanto, crear una predicción inestable. Por supuesto, "insignificante" varía de una aplicación a otra.

0voto

MooseBoys Puntos 101

En ML queremos seguir la navaja de Occam. Preferimos la baja complejidad a la alta complejidad, porque suponemos que obtendremos mejores resultados con nuevos datos no vistos si tenemos un modelo menos complejo (menos sobreajuste). Pero, por supuesto, también existe la inadaptación. Así que si puede demostrar que un modelo más complejo puede superar a un modelo menos complejo en datos nuevos, entonces debería optar por el modelo más complicado.

Y para aclarar el sesgo, la varianza y el sobreajuste: El sesgo es alto si el ajuste es insuficiente. Tienes un rendimiento débil en los conjuntos de entrenamiento, prueba y validación. La varianza es alta si el ajuste es excesivo. El rendimiento es bueno en los datos de entrenamiento y disminuye visiblemente en los nuevos datos no vistos.

Obviamente, este ha sido un resumen bastante rápido. Siempre depende de lo que sea una buena y una mala actuación, pero espero que me hayas entendido.

0voto

N Blake Puntos 41

En cuanto al número 2

Su intuición es correcta en el sentido de que las dos preocupaciones que plantea aluden a cosas ligeramente distintas.

En el primer caso, la recomendación de elegir un modelo más sencillo para evitar el sobreajuste se refiere al sobreajuste de los parámetros del modelo, es decir, lo que aprende un modelo a partir de los datos de entrenamiento. Un modelo más complejo será más propenso a "memorizar" los datos de entrenamiento, por lo que carecerá de generalizabilidad.

En el segundo caso, la recomendación de probar los parámetros en el conjunto de validación se refiere a un ajuste excesivo. hiperparámetros . Estos son los "diales" que usted, como investigador, puede ajustar para intentar sacar el máximo partido del modelo. Sin embargo, ¿cómo sabe que no los ha optimizado para su conjunto de pruebas eligiendo el que obtenga la mejor puntuación? Añada un conjunto de validación para ver qué modelo (es decir, qué conjunto de hiperparámetros) funciona mejor y, a continuación, compárelo con el conjunto de prueba. En tu caso, la profundidad del árbol y los parámetros de regularización son hiperparámetros. Sólo es necesario si selecciona entre varios modelos.

He encontrado este debate útil cuando estaba mirando esto.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X