31 votos

¿Es cierto que los métodos bayesianos no sobreajustan?

¿Es cierto que los métodos bayesianos no sobreajustan? (He visto algunos artículos y tutoriales que hacen esta afirmación)

Por ejemplo, si aplicamos un proceso gaussiano a MNIST (clasificación de dígitos escritos a mano), pero sólo le mostramos una única muestra, ¿volverá a la distribución a priori para cualquier entrada diferente de esa única muestra, por pequeña que sea la diferencia?

33voto

Jay Querido Puntos 589

No, no es cierto. Los métodos bayesianos ciertamente sobreajustarán los datos. Hay un par de cosas que hacen que los métodos bayesianos sean más robustos contra el sobreajuste y también se pueden hacer más frágiles.

La naturaleza combinatoria de las hipótesis bayesianas, en lugar de las hipótesis binarias, permite realizar múltiples comparaciones cuando alguien carece del modelo "verdadero" para los métodos de hipótesis nula. Un posterior bayesiano penaliza efectivamente un aumento de la estructura del modelo, como la adición de variables, mientras que recompensa las mejoras en el ajuste. Las penalizaciones y las ganancias no son optimizaciones, como sería el caso de los métodos no bayesianos, sino cambios en las probabilidades a partir de nueva información.

Si bien es cierto que, por lo general, se obtiene una metodología más sólida, existe una limitación importante, que es la utilización de distribuciones previas adecuadas. Aunque hay una tendencia a querer imitar los métodos frecuenciales mediante el uso de distribuciones a priori planas, esto no asegura una solución adecuada. Hay artículos sobre el sobreajuste en los métodos bayesianos y me parece que el pecado está en tratar de ser "justo" con los métodos no bayesianos empezando con priores estrictamente planos. La dificultad es que la prioridad es importante para normalizar la probabilidad.

Los modelos bayesianos son intrínsecamente óptimos en el sentido de admisibilidad de la palabra de Wald, pero hay un coco oculto ahí. Wald asume que la prioridad es la verdadera y no una prioridad que se utiliza para que los editores no le castiguen por poner demasiada información en ella. No son óptimos en el mismo sentido que los modelos frecuentistas. Los métodos frecuentistas comienzan con la optimización de minimizar la varianza mientras permanecen insesgados.

Se trata de una optimización costosa en el sentido de que descarta información y no es intrínsecamente admisible en el sentido de Wald, aunque frecuentemente es admisible. Así que los modelos frecuentistas proporcionan un ajuste óptimo a los datos, dada la insesgadez. Los modelos bayesianos no son insesgados ni se ajustan de forma óptima a los datos. Este es el compromiso que usted está haciendo para minimizar el sobreajuste.

Los estimadores bayesianos son estimadores intrínsecamente sesgados, a menos que se tomen medidas especiales para hacerlos insesgados, que suelen ajustarse peor a los datos. Su virtud es que nunca utilizan menos información que un método alternativo para encontrar el "verdadero modelo" y esta información adicional hace que los estimadores bayesianos nunca sean más arriesgados que los métodos alternativos, especialmente cuando se trabaja fuera de la muestra. Dicho esto, siempre existirá una muestra que podría haber sido extraída al azar y que "engañaría" sistemáticamente al método bayesiano.

En cuanto a la segunda parte de su pregunta, si se analizara una sola muestra, la posterior se alteraría para siempre en todas sus partes y no volvería a la anterior a menos que hubiera una segunda muestra que anulara exactamente toda la información de la primera. Al menos en teoría, esto es cierto. En la práctica, si la muestra previa es suficientemente informativa y la observación suficientemente desinformativa, el impacto podría ser tan pequeño que un ordenador no podría medir las diferencias debido a la limitación del número de dígitos significativos. Es posible que un efecto sea demasiado pequeño para que un ordenador pueda procesar un cambio en la posterioridad.

Así que la respuesta es "sí", se puede sobreajustar una muestra utilizando un método bayesiano, sobre todo si el tamaño de la muestra es pequeño y los priores son inadecuados. La segunda respuesta es "no". El teorema de Bayes nunca olvida el impacto de los datos a priori, aunque el efecto podría ser tan pequeño que se pasara por alto computacionalmente.

21voto

Martin Robins Puntos 1893

Algo que hay que tener en cuenta es que, como prácticamente en todas partes, un problema importante en los métodos bayesianos puede ser la mala especificación del modelo.

Este es un punto obvio, pero pensé en compartir una historia.

Una viñeta de la universidad...

Una aplicación clásica del filtrado bayesiano de partículas es el seguimiento de la ubicación de un robot mientras se mueve por una habitación. El movimiento amplía la incertidumbre, mientras que las lecturas de los sensores la reducen.

Recuerdo haber codificado algunas rutinas para hacer esto. Escribí un modelo sensato y teóricamente motivado para la probabilidad de observar varias lecturas de sonar dados los valores reales. Todo se derivó con precisión y se codificó maravillosamente. Luego fui a probarlo...

¿Qué ha pasado? ¡Fallo total! ¿Por qué? Mi filtro de partículas pensó rápidamente que las lecturas de los sensores habían eliminado casi toda la incertidumbre. Mi nube de puntos se colapsó hasta un punto, ¡pero mi robot no estaba necesariamente en ese punto!

Básicamente, mi función de probabilidad era mala; las lecturas de mis sensores no eran tan informativas como creía. Estaba sobreajustando. ¿Una solución? Mezclé una tonelada más de ruido gaussiano (de forma bastante ad hoc), la nube de puntos dejó de colapsarse y entonces el filtrado funcionó de maravilla.

¿Moral?

Como dijo Box, "todos los modelos son erróneos, pero algunos son útiles". Casi con toda seguridad, no tendrás la verdadera función de verosimilitud, y si está lo suficientemente desviada, tu método bayesiano puede ir terriblemente mal y sobreajustar.

Añadir una prioridad no resuelve mágicamente los problemas derivados de suponer que las observaciones son IID cuando no lo son, de suponer que la probabilidad tiene más curvatura de la que tiene, etc.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X