29 votos

Bayesiano pensando en el sobreajuste

He dedicado mucho tiempo al desarrollo de métodos y software para la validación de modelos predictivos en la tradicional estadística frecuentista de dominio. En poner más Bayesiano de las ideas a la práctica y enseñanza veo algunas diferencias clave a abrazar. En primer lugar, Bayesiano de modelos predictivos pide al analista a pensar muy bien antes de distribuciones que pueden ser personalizados para el candidato características, y estos priores se tire de la modelo hacia ellos (es decir, lograr la contracción/penalización/regularización con diferentes cantidades de penalización por diferentes predictivo características). Segundo, el "real" Bayesiano de manera que no resulte en un modelo único, pero uno se una toda la distribución posterior para una predicción.

Con los Bayesiano características en mente, ¿qué sobreajuste decir? Debemos evaluar? Si es así, ¿cómo? ¿Cómo sabemos cuando un modelo Bayesiano es confiable para uso en el campo? O que es un punto discutible desde la parte posterior llevará a lo largo de toda la precaución-dar incertidumbres cuando se utiliza el modelo que hemos desarrollado para la predicción?

¿Cómo sería la forma de pensar cambio si forzamos a que el modelo Bayesiano para ser destilado a un solo número, por ejemplo, parte posterior de la media/modo/mediana de riesgo?

Veo que algunos relacionados con el pensamiento aquí. Un debate paralelo puede ser encontrado aquí.

Pregunta de seguimiento: : Si estamos completamente Bayesiano y pasar algún tiempo pensando en los priores antes de ver los datos, y nosotros se ajustan a un modelo en el que los datos de probabilidad fue debidamente especificado, estamos obligados a estar satisfechos con nuestro modelo con respecto a sobreajuste? O ¿debemos hacer lo que podemos hacer en el frecuentista mundo donde un tema elegido al azar puede ser predicha bien en el promedio, pero si tenemos que elegir un tema que tiene un muy bajo nivel de predicción o uno con un muy alto valor de predicción habrá de regresión a la media?

9voto

avalancha Puntos 128

Podría empezar diciendo que un modelo Bayesiano no sistemáticamente overfit (o underfit) los datos que se extraen de la antes de la distribución predictiva, que es la base de un procedimiento para validar que Bayesiano software está funcionando correctamente antes de que se aplica a los datos recopilados en el mundo.

Pero puede overfit un único conjunto de datos extraídos de la antes de la distribución predictiva o de un único conjunto de datos recogidos desde el mundo en el sentido de que los diversos predictivo de las medidas que se aplican a los datos que usted la condición de que se ven mejor que los mismos predictiva de las medidas aplicadas para el futuro de los datos que son generados por el mismo proceso. El capítulo 6 de Richard McElreath del Bayesiano libro está dedicado a sobreajuste.

La gravedad y la frecuencia de sobreajuste puede disminuirse por el bien de los priores, particularmente aquellos que son de carácter informativo acerca de la magnitud de un efecto. Poniendo de fuga antes de probabilidad en inverosímilmente grandes valores, desalentar la distribución posterior de llegar demasiado excitados por algunos idiosincrásicos aspecto de los datos que la condición en que puede sugerir un inverosímil gran efecto.

Las mejores maneras de detectar el sobreajuste involucrar a dejar-uno-fuera de validación cruzada, que se puede aproximar a partir de una distribución posterior que realmente no sale de las observaciones de los condicionamientos establecidos. Hay una suposición de que ninguna persona "observación" [*] que la enfermedad tiene una excesivamente grande efecto en la distribución posterior, pero esa suposición es seleccionable por evaluar el tamaño de la estimación de la forma de parámetros en una Generalizada de Pareto de distribución que se ajuste a la importancia de los pesos de muestreo (que se derivan de la log-verosimilitud de una observación evaluados a lo largo de cada sorteo de la distribución posterior). Si esta hipótesis se cumple, entonces usted puede obtener predictiva de las medidas de cada observación que son como si que la observación había sido omitido, la parte posterior había sido extraído del condicional en el resto de las observaciones, y la posterior distribución predictiva había sido construido por el omitir la observación. Si tus predicciones de izquierda a cabo observaciones sufrir, su modelo fue el sobreajuste, para empezar. Estas ideas se aplican en el loo paquete de R, que incluye citas como aquí y allí.

Tan lejos como la destilación a un solo número, me gusta para calcular la proporción de observaciones que caen dentro de 50% intervalos de predicción. En la medida en que esta proporción es mayor que la mitad, el modelo es el sobreajuste, aunque se necesita más que un puñado de observaciones con el fin de cortar a través del ruido en la inclusión del indicador de función. Para la comparación de los diferentes modelos (que puede overfit), se espera que el registro de predicción de la densidad (que se calcula el loo función en el loo paquete) es una buena medida (propuesto por I. J. Good), porque toma en cuenta la posibilidad de que un modelo más flexible de mayo de ajuste de los datos disponibles mejor que una menos flexible modelo, pero se espera que para predecir datos futuros peor. Pero estas ideas pueden ser aplicadas a la expectativa de cualquier predictivo medida (que puede ser más intuitivo para los profesionales); véase la E_loo función en el loo paquete.

[*] Tienes para elegir lo que constituye una observación en un modelo jerárquico. Por ejemplo, ¿está usted interesado en la predicción de un paciente nuevo o un nuevo punto de tiempo para un paciente existente? Usted puede hacer cualquier manera, pero el ex requiere que (re)escribir la probabilidad función de integrar a la paciente de los parámetros específicos.

1voto

guest123 Puntos 21

El sobreajuste significa que el modelo funciona bien en el conjunto de entrenamiento, pero un mal desempeño en la prueba de conjunto. En mi humilde opinión, proviene de dos fuentes: los datos y el modelo que uso (o en nuestra subjetividad).

De datos es probablemente el factor más importante. Con cualquiera de los modelos/enfoques que se utilice, se supone implícitamente la de nuestros datos es suficientemente representativo, que es lo que queremos obtener de nuestros (de entrenamiento) de los datos también se pueden generalizar a la población. En la práctica esto no es siempre el caso. Si los datos no son iid luego estándar $k$veces CV no tiene sentido en evitar el sobreajuste.

Como resultado, si estamos frecuentista, a continuación, la fuente de sobreajuste viene de la MLE. Si estamos Bayesiano, a continuación, esto viene de la (subjetiva) elección de antes de la distribución(y, por supuesto, la elección de probabilidad)). Así que incluso si usted uso posterior distribución/media/mediana, ya overfitted desde el principio y este sobreajuste se lleva a lo largo. La elección adecuada del estado de la distribución y probabilidad va a ayudar, pero todavía están los modelos, nunca se puede evitar el sobreajuste completamente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X