En el libro PRML de Bishop, dice que, el sobreajuste es un problema con la Estimación de Máxima Verosimilitud (MLE), y la Bayesiana puede evitarlo.
Pero creo que el sobreajuste es un problema que tiene que ver más con la selección del modelo, no con el método utilizado para hacer la estimación de los parámetros. Es decir, supongamos que tengo un conjunto de datos $D$ que se genera a través de $$f(x)=sin(x),\;x\in[0,1]$$ , ahora podría elegir diferentes modelos $H_i$ para ajustar los datos y averiguar cuál es el mejor. Y los modelos considerados son polinómicos con diferentes órdenes, $H_1$ es el orden 1, $H_2$ es de orden 2, $H_3$ es el orden 9.
Ahora trato de ajustar los datos $D$ con cada uno de los 3 modelos, cada modelo tiene sus parámetros, denotados como $w_i$ para $H_i$ .
Usando ML, tendré una estimación puntual de los parámetros del modelo $w$ y $H_1$ es demasiado simple y siempre se ajustará mal a los datos, mientras que $H_3$ es demasiado complejo y se ajustará demasiado a los datos, sólo $H_2$ se ajustará bien a los datos.
Mis preguntas son,
1) Modelo $H_3$ sobreajustará los datos, pero no creo que sea el problema de ML, sino el problema del modelo en sí. Porque, usando ML para $H_1,H_2$ no da lugar a un sobreajuste. ¿Estoy en lo cierto?
2) Comparado con el bayesiano, el ML tiene algunas desventajas, ya que sólo da la estimación puntual de los parámetros del modelo $w$ y es un exceso de confianza. Mientras que el bayesiano no se basa sólo en el valor más probable del parámetro, sino en todos los valores posibles de los parámetros dados los datos observados $D$ ¿verdad?
3) ¿Por qué la Bayesiana puede evitar o disminuir el sobreajuste? Según tengo entendido, podemos utilizar la bayesiana para la comparación de modelos, es decir, dados los datos $D$ , podríamos averiguar el probabilidad marginal (o evidencia del modelo) para cada modelo en consideración, y luego elegir el que tenga la mayor probabilidad marginal, ¿verdad? Si es así, ¿por qué?
0 votos
@nbro, perdona que haya pasado tiempo, no lo recuerdo con claridad, pero quizá se refería a que la bayesiana podía mitigar de alguna manera el problema del sobreajuste, no evitarlo por completo.