Como dices, esta idea ha sido explorado antes (aunque bajo diferentes nombres) y realmente hay una amplia literatura sobre el tema. Los nombres que yo asocio con esta línea de trabajo son Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi, Achim Zeileis o Thomas Rusch. Usted puede encontrar un lugar descripción completa de los pros y los contras y algoritmos diferentes (un poco antigua) en esta tesis.
Árboles con GLM tener las siguientes (des) ventajas (parafraseado de aquí - usted puede encontrar fácilmente el preprint por google):
La forma funcional de un GLM puede a veces puede parecer demasiado rígido para todo el conjunto de datos, incluso si el modelo podría encajar bien en una submuestra.
Especialmente con grandes conjuntos de datos o conjuntos de datos donde el conocimiento acerca de
los procesos subyacentes es limitado, la configuración de útiles paramétrico
los modelos pueden ser difíciles y su desempeño con respecto a
la predicción no puede ser suffcient.
Los árboles son capaces de incorporar las relaciones no lineales o encontrar la
relación funcional por sí mismos y por lo tanto puede tener mayor
poder predictivo en entornos donde los modelos clásicos son parciales o incluso
error.
Debido a su explorativa carácter, árboles con GLM puede revelar
patrones ocultos en los datos modelados con GLM o proporcionar más
explicación de la sorprendente o contra-intuitivo resultados por
la incorporación de información adicional de otras covariables.
Que puede ser útil en la identificación de los segmentos de los datos por los cuales un
a priori supone modelo se ajusta bien. Puede ser que, en general, este modelo ha
un mal ajuste, pero que esto se debe a algún tipo de contaminación (por ejemplo
la fusión de dos archivos de datos independiente o errores sistemáticos de datos durante
colección en una fecha determinada). Árboles con GLM podría partición de la
de datos en una forma que nos permite encontrar los segmentos que tienen la mala adaptación
y encontrar los segmentos para que el ajuste puede ser bastante buena.
La estructura de árbol permite que los efectos de estas covariables a ser
no-lineal y altamente interactivo, como oposición a asumir un lineal en
influencia en el medio.
Árboles con GLM puede conducir a una perspectiva adicional de un a priori supone
modelo paramétrico, especialmente si los mecanismos subyacentes son demasiado
complejo para ser capturado por el GLM.
Árboles con GLM puede detectar automáticamente las interacciones, no-linealidad,
modelo misspecification, unregarded covariable influencia y así sucesivamente.
Pueden ser utilizados como una herramienta de exploración en el complejo y datos de gran tamaño
los conjuntos para los cuales tiene un número de ventajas.
En comparación con un global de GLM, un GLM modelo de árbol puede aliviar el problema
de sesgo y modelo misspecification y proporcionar un mejor ajuste.
En comparación con el árbol de algoritmos con constantes, la especificación de un
modelo paramétrico en los nodos terminales pueden añadir estabilidad y
por lo tanto, reducir la varianza de los tres métodos.
Al ser un híbrido de los árboles y el clásico GLM-tipo de modelos, el rendimiento
generalmente se encuentra entre esos dos polos: Ellos tienden a mostrar una mayor
poder predictivo de los modelos clásicos, pero menos que los no-paramétricas
de los árboles.
Que añadir la complejidad de la comparación con el modelo clásico debido a la
proceso de división, pero suelen ser más parsimonous de
no paramétrico de los árboles.
Ellos muestran una mayor varianza de la predicción de un modelo global en bootstrap
los experimentos, pero mucho menos que los no-paramétrico de árboles (incluso poda
queridos).
El uso de un GLM en el nodo de un árbol típicamente conduce a los árboles más pequeños
El uso de un GLM en el nodo de un árbol típicamente conduce a la más estable
predicciones frente a un árbol con sólo una constante (pero no como
estable como empaque o bosques de árboles)
La VC de la Dimensión de un árbol con GLM en los nodos es mayor que el
equivalente árbol con sólo una constante (ya que este último es un caso especial
de la anterior)
Con respecto a la "eficacia" (supongo que te refieres a el rendimiento predictivo) de los árboles, con el GLM, la mayoría de los documentos citados en los dos párrafos anteriores enlaces proporcionan cierta investigación. Sin embargo, una integral, amplia comparación de todos los algoritmos con competidores como estándar de los árboles no se han hecho con la mejor de mis conocimientos.