15 votos

Bayesiano vs MLE, problema de sobreajuste

En el libro PRML de Bishop, dice que, el sobreajuste es un problema con la Estimación de Máxima Verosimilitud (MLE), y la Bayesiana puede evitarlo.

Pero creo que el sobreajuste es un problema que tiene que ver más con la selección del modelo, no con el método utilizado para hacer la estimación de los parámetros. Es decir, supongamos que tengo un conjunto de datos $D$ que se genera a través de $$f(x)=sin(x),\;x\in[0,1]$$ , ahora podría elegir diferentes modelos $H_i$ para ajustar los datos y averiguar cuál es el mejor. Y los modelos considerados son polinómicos con diferentes órdenes, $H_1$ es el orden 1, $H_2$ es de orden 2, $H_3$ es el orden 9.

Ahora trato de ajustar los datos $D$ con cada uno de los 3 modelos, cada modelo tiene sus parámetros, denotados como $w_i$ para $H_i$ .

Usando ML, tendré una estimación puntual de los parámetros del modelo $w$ y $H_1$ es demasiado simple y siempre se ajustará mal a los datos, mientras que $H_3$ es demasiado complejo y se ajustará demasiado a los datos, sólo $H_2$ se ajustará bien a los datos.

Mis preguntas son,

1) Modelo $H_3$ sobreajustará los datos, pero no creo que sea el problema de ML, sino el problema del modelo en sí. Porque, usando ML para $H_1,H_2$ no da lugar a un sobreajuste. ¿Estoy en lo cierto?

2) Comparado con el bayesiano, el ML tiene algunas desventajas, ya que sólo da la estimación puntual de los parámetros del modelo $w$ y es un exceso de confianza. Mientras que el bayesiano no se basa sólo en el valor más probable del parámetro, sino en todos los valores posibles de los parámetros dados los datos observados $D$ ¿verdad?

3) ¿Por qué la Bayesiana puede evitar o disminuir el sobreajuste? Según tengo entendido, podemos utilizar la bayesiana para la comparación de modelos, es decir, dados los datos $D$ , podríamos averiguar el probabilidad marginal (o evidencia del modelo) para cada modelo en consideración, y luego elegir el que tenga la mayor probabilidad marginal, ¿verdad? Si es así, ¿por qué?

0 votos

@nbro, perdona que haya pasado tiempo, no lo recuerdo con claridad, pero quizá se refería a que la bayesiana podía mitigar de alguna manera el problema del sobreajuste, no evitarlo por completo.

22voto

John Richardson Puntos 1197

La optimización es la raíz de todos los males en la estadística. Cada vez que tomas decisiones sobre tu modelo $^1$ al optimizar algún criterio adecuado evaluado en una muestra finita de datos se corre el riesgo de sobreajustar el criterio, es decir, de reducir el estadístico más allá del punto en el que se obtienen mejoras en el rendimiento de la generalización y la reducción se obtiene, en cambio, explotando las peculiaridades de la muestra de datos, por ejemplo, el ruido). La razón por la que el método bayesiano funciona mejor es que no se optimiza nada, sino que se margina (integra) sobre todas las opciones posibles. El problema radica entonces en la elección de las creencias previas sobre el modelo, por lo que ha desaparecido un problema, pero aparece otro en su lugar.


$^1$ Esto incluye la maximización de la evidencia (probabilidad marginal) en un entorno bayesiano. Para un ejemplo de esto, vea los resultados de los clasificadores de Proceso Gaussiano en mi documento, donde la optimización de la probabilidad marginal hace que el modelo sea peor si tiene demasiados hiperparámetros (tenga en cuenta que la selección según la probabilidad marginal tenderá a favorecer los modelos con muchos hiperparámetros como resultado de esta forma de sobreajuste).

G. C. Cawley y N. L. C. Talbot, Over-fitting in model selection and subsequent selection bias in performance evaluation, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julio de 2010. ( pdf )

1 votos

+1, muchas gracias, leeré tu artículo y veré si tengo más preguntas, ;-)

1 votos

Sólo hay que señalar que la optimización suele considerarse como una integración aproximada: el método de Laplace es un ejemplo de ello. La optimización suele fallar cuando no es una buena aproximación a la integración, de ahí que el REML sea normalmente mejor que el ML.

0 votos

@probabilityislogic, no estoy seguro de entender, el ML es un poco como el MAP, no se realiza ninguna integración. El uso de la aproximación de Laplace (en la forma en que he visto que se utiliza) es la optimización en el sentido de que se optimiza una aproximación a la función que desea integrar e integrar que en su lugar, pero todavía hay integración pasando.

8voto

patfla Puntos 1

Como respuesta general, si se utilizan modelos de regresión del tipo "mínimos cuadrados" no hay realmente mucha diferencia entre bayes y ML, a menos que se utilice una prioridad informativa para los parámetros de regresión. En respuesta a lo específico:

1) $ H_9 $ no necesariamente sobreajustará los datos - sólo cuando tenga cerca de 9 observaciones. Si tuviera 100 observaciones, la mayoría de los coeficientes supuestamente "sobreajustados" serían cercanos a cero. También $ H_1 $ casi siempre daría lugar a un "infraajuste", ya que se perdería una clara curvatura

2) Esto es, no es cierto para las expansiones "lineales" como polinomios ("lineal" significa lineal con respecto a los parámetros, no $ x $ ). Las estimaciones de ML para los mínimos cuadrados son idénticas a las medias posteriores bajo priores no informativos o tamaños de muestra grandes. De hecho, se puede demostrar que las estimaciones de ML pueden considerarse como medias posteriores "asintóticas" bajo una variedad de modelos.

3) El enfoque bayesiano puede evitar el sobreajuste sólo en el caso de los priores adecuados. Esto funciona de forma similar a los términos de penalización que se ven en algunos algoritmos de ajuste. Por ejemplo, la penalización L2 = prioridad normal, la penalización L1 = prioridad laplace.

0 votos

Upvoted, y tienes razón que con más observaciones a mano, $H_9$ no se ajustará en exceso. Pero ¿tengo razón con la afirmación de que el sobreajuste es un problema de elección del modelo equivocado, no del ML en sí ? Y podemos utilizar la Bayesiana en la selección de modelos, pero no podemos hacerlo con la ML, ¿verdad?

0 votos

Seguramente todas las opciones de H aquí serán el modelo equivocado, aparte de $H_\infty$ . El problema es el error en la estimación de los parámetros del modelo, que tiene componentes de sesgo y de varianza. Si eliges el modelo utilizando un criterio bayesiano, también puedes sobreajustarlo (añadiré una referencia para apoyarlo en mi respuesta).

0 votos

@loganecolss - Creo que $ H_9 $ aquí estaría más cerca de la verdad que cualquier otro. El sobreajuste está más relacionado con el tamaño de la muestra y el tipo de estructura del modelo que puede proporcionar apoyo (a veces llamado modelo "seguro").

6voto

Corey White Puntos 76

Básicamente, lo que estás haciendo al aumentar los grados de tus polinomios es aumentar el número de parámetros o grados de libertad del espacio de tu modelo, es decir, su dimensión. Cuantos más parámetros añadas, más fácil será que el modelo se ajuste a los datos de entrenamiento. Pero esto también depende en gran medida del número de observaciones. Sus modelos $H_1$ et $H_2$ puede sobreajustar los datos de entrenamiento si el número de observaciones es bajo, al igual que $H_3$ puede no sobreajustar en absoluto si el número de instancias de entrenamiento es lo suficientemente grande.

Por ejemplo, exageremos y supongamos que sólo te dan $2$ ejemplos de formación, que incluso $H_1$ siempre se ajustará en exceso a sus datos.

La ventaja de imponer prioridades, por ejemplo, a través de la regularización, es que los parámetros se reducen a cero o a algún otro valor predefinido (incluso se pueden añadir parámetros para "atar" los coeficientes si se quiere), y así se restringen implícitamente los parámetros y se reduce la "libertad" de su modelo para sobreajustarse. Por ejemplo, utilizando el lazo (es decir $l^1$ regularización o, de forma equivalente, una prioridad de Laplace) y el ajuste del parámetro correspondiente (utilizando una validación cruzada de 10x, por ejemplo) se deshará automáticamente de los parámetros sobrantes. La interpretación bayesiana es similar: al imponer prioridades, está restringiendo sus parámetros a algún valor más probable, inferido de los datos globales.

0 votos

Una hipótesis simple (por ejemplo, h1, h2) con muestras de entrenamiento insuficientes sería un ejemplo de infraajuste (para cv) y no de sobreajuste debido al sesgo del modelo en los pocos ejemplos de entrenamiento dados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X