16 votos

Aprendizaje en conjunto: ¿Por qué es efectiva la combinación de modelos?

Recientemente, me he interesado en el apilamiento de modelos como una forma de aprendizaje de conjunto. En particular, he experimentado un poco con algunos conjuntos de datos de juguete para problemas de regresión. Básicamente he implementado regresores individuales de "nivel 0", almacenado las predicciones de salida de cada regresor como una nueva característica para que un "meta-regresor" las tome como entrada, y ajustado este meta-regresor en estas nuevas características (las predicciones de los regresores de nivel 0). Me sorprendió enormemente ver incluso mejoras modestas sobre los regresores individuales al probar el meta-regresor contra un conjunto de validación.

Entonces, aquí está mi pregunta: ¿por qué es efectivo el apilamiento de modelos? Intuitivamente, esperaría que el modelo que realiza el apilamiento tenga un mal rendimiento ya que parece tener una representación de características empobrecida en comparación con cada uno de los modelos de nivel 0. Es decir, si entreno 3 regresores de nivel 0 en un conjunto de datos con 20 características, y utilizo las predicciones de estos regresores de nivel 0 como entrada a mi meta-regresor, esto significa que mi meta-regresor solo tiene 3 características para aprender. Simplemente parece que hay más información codificada en las 20 características originales que los regresores de nivel 0 tienen para el entrenamiento que las 3 características de salida que el meta-regresor usa para el entrenamiento.

7voto

Ant Puntos 26

Piensa en el ensamblaje básicamente como una explotación del teorema del límite central.

El teorema del límite central dice a grandes rasgos que, a medida que el tamaño de la muestra aumenta, la media de la muestra se convertirá en una estimación cada vez más precisa de la ubicación real de la media de la población (asumiendo que esa sea la estadística que estás mirando), y la varianza se estrechará.

Si tienes un modelo y produce una predicción para tu variable dependiente, esa predicción probablemente sea alta o baja en cierto grado. Pero si tienes 3 o 5 o 10 modelos diferentes que producen diferentes predicciones, para cualquier observación dada, las predicciones altas de algunos modelos tenderán a compensar los errores bajos de algunos otros modelos, y el efecto neto será una convergencia del promedio (u otra combinación) de las predicciones hacia "la verdad". No en cada observación, pero en general esa es la tendencia. Y así, en general, un ensamble superará al mejor modelo individual.

6voto

Even Mien Puntos 10122

Respuesta tardía, pero se pueden agregar algunos puntos clave. Personalmente considero que el apilamiento de modelos es "la secuela natural" del promedio de modelos. Y hay una razón por la que los promedios de modelos a menudo son mejores que los modelos individuales.

Promedio de modelos

Usualmente, dos modelos (diferentes) con un rendimiento similar a menudo funcionan mejor que el mejor modelo cuando se utiliza el promedio de la predicción. Esto es particularmente cierto cuando la penalización es una función convexa (MSE, RMSE ...) y es una consecuencia de la desigualdad de Jensen

Promedio de modelos (ponderado)

El promedio de modelos se puede ver como un caso particular del apilamiento de modelos. Si utilizas un modelo lineal en la parte superior de los modelos de la "primera etapa", simplemente estás optimizando los pesos dados a cada modelo (mientras que el promedio de modelos simplemente daba el mismo peso a cada modelo).

Apilamiento de modelos

Luego, cuando eliminas la suposición lineal en el modelo que entrenas en las "características de la etapa 1", simplemente aumentas el tamaño del espacio en el que "buscas" tu modelo. Cuanto más grande sea este espacio, más probable es que encuentres un mejor rendimiento.

Presenté esto con más detalles en apilamiento de modelos: un tutorial

También puede interesarte este artículo: Generalización apilada por David H. Wolpert, que es una de las primeras (que yo sepa) publicaciones académicas sobre este método.

Editar

No pude encontrar muchas otras referencias en línea, así que detallé los argumentos anteriores en mi blog: ¿Por qué funciona el apilamiento de modelos?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X