Recientemente, me he interesado en el apilamiento de modelos como una forma de aprendizaje de conjunto. En particular, he experimentado un poco con algunos conjuntos de datos de juguete para problemas de regresión. Básicamente he implementado regresores individuales de "nivel 0", almacenado las predicciones de salida de cada regresor como una nueva característica para que un "meta-regresor" las tome como entrada, y ajustado este meta-regresor en estas nuevas características (las predicciones de los regresores de nivel 0). Me sorprendió enormemente ver incluso mejoras modestas sobre los regresores individuales al probar el meta-regresor contra un conjunto de validación.
Entonces, aquí está mi pregunta: ¿por qué es efectivo el apilamiento de modelos? Intuitivamente, esperaría que el modelo que realiza el apilamiento tenga un mal rendimiento ya que parece tener una representación de características empobrecida en comparación con cada uno de los modelos de nivel 0. Es decir, si entreno 3 regresores de nivel 0 en un conjunto de datos con 20 características, y utilizo las predicciones de estos regresores de nivel 0 como entrada a mi meta-regresor, esto significa que mi meta-regresor solo tiene 3 características para aprender. Simplemente parece que hay más información codificada en las 20 características originales que los regresores de nivel 0 tienen para el entrenamiento que las 3 características de salida que el meta-regresor usa para el entrenamiento.