Soy bastante novato en el aprendizaje automático y, después de leer sobre el equilibrio entre sesgo y varianza y el ajuste excesivo o insuficiente, me han surgido varias preguntas:
-
Si tengo un modelo con un 15% de error en el conjunto de entrenamiento y un 14% de error en el conjunto de validación, y otro modelo con un 5% de error en el conjunto de entrenamiento y un 13% de error en el conjunto de validación, entiendo que generalmente es mejor elegir el primer modelo (nótese que el 13% frente al 14% es pequeño pero no despreciable). ¿Por qué? ¿El bajo error de entrenamiento del segundo modelo indica que está más sobreajustado y, por tanto, probablemente daría peores resultados que el primero en datos no vistos?
-
Por un lado, leo que para evitar el sobreajuste hay que tener, por ejemplo, menor profundidad de árbol o un valor alto en el parámetro de regulación. Pero, por otro lado, he leído que para evitar el sobreajuste hay que optimizar los parámetros en el conjunto de validación (y no en el conjunto de prueba) y mantener la puntuación del entrenamiento sólo un poco mejor que la puntuación de la prueba (como en mi primera pregunta). ¿Cómo se relacionan estos dos métodos? ¿Se refieren al mismo tipo de sobreajuste? ¿Cómo ayudan ambos a reducir el sobreajuste?
-
en esta foto (extraído de aquí ) se explica que para eta=0,1 (eta en este caso es la tasa de aprendizaje en XGBOOST) el modelo está infraajustado, y para eta=0,9 el modelo está sobreajustado. Puedo ver que para eta=0,9 el modelo está sobreajustado (ya que el error de prueba aumenta), pero a mí me parece que también para eta=0,1 el modelo está sobreajustado, ya que el error de prueba aumenta un poco mientras que el error de entrenamiento disminuye. ¿Qué se me escapa?
-
Digamos que tengo 2 modelos de árbol. Uno tiene
tree_depth=2
y un 10% de error, y el otro tienetree_depth=7
y un error del 9,7% (por lo que es evidente que el primer modelo tiene menor complejidad que el segundo, pero éste es mejor por una cantidad pequeña pero no despreciable). He leído que se recomienda elegir el primer modelo en lugar del segundo, pero ¿por qué? ¿Es porque el primer modelo está probablemente menos sobreajustado? Y si es así, ¿por qué debería importarme si la complejidad reduce el error? ¿Tal vez porque el primer modelo probablemente tenga menos varianza?
Nota: le agradeceríamos que respondiera a una sola de estas preguntas.
Nota 2: No tengo conocimientos de estadística ni de matemáticas, por lo que agradecería mucho (cuando sea posible) un lenguaje sencillo.