12 votos

¿Ventajas de los GLM en los nodos terminales de un árbol de regresión?

Así que estoy jugando con la idea de escribir un algoritmo que crece y se poda un árbol de regresión a partir de los datos y, a continuación, en los nodos terminales del árbol, se ajusta a un GLM. He estado tratando de leer en la idea, pero me parece que no puede encontrar cualquier consistentes nombre de la técnica. Me lo he leído como híbrido de los árboles de regresión (HRT), el modelo de los árboles, y funcional de los árboles. Búsquedas en estos términos su vez muy poco.

Me estoy perdiendo otro nombre para esto? Donde puedo encontrar la investigación sobre la eficacia de este?

14voto

Momo Puntos 5125

Como dices, esta idea ha sido explorado antes (aunque bajo diferentes nombres) y realmente hay una amplia literatura sobre el tema. Los nombres que yo asocio con esta línea de trabajo son Wei-Yin Loh, Probal Chaudhuri, Hongshik Ahn, Joao Gama, Antonio Ciampi, Achim Zeileis o Thomas Rusch. Usted puede encontrar un lugar descripción completa de los pros y los contras y algoritmos diferentes (un poco antigua) en esta tesis.

Árboles con GLM tener las siguientes (des) ventajas (parafraseado de aquí - usted puede encontrar fácilmente el preprint por google):

  • La forma funcional de un GLM puede a veces puede parecer demasiado rígido para todo el conjunto de datos, incluso si el modelo podría encajar bien en una submuestra.

  • Especialmente con grandes conjuntos de datos o conjuntos de datos donde el conocimiento acerca de los procesos subyacentes es limitado, la configuración de útiles paramétrico los modelos pueden ser difíciles y su desempeño con respecto a la predicción no puede ser suffcient.

  • Los árboles son capaces de incorporar las relaciones no lineales o encontrar la relación funcional por sí mismos y por lo tanto puede tener mayor poder predictivo en entornos donde los modelos clásicos son parciales o incluso error.

  • Debido a su explorativa carácter, árboles con GLM puede revelar patrones ocultos en los datos modelados con GLM o proporcionar más explicación de la sorprendente o contra-intuitivo resultados por la incorporación de información adicional de otras covariables.

  • Que puede ser útil en la identificación de los segmentos de los datos por los cuales un a priori supone modelo se ajusta bien. Puede ser que, en general, este modelo ha un mal ajuste, pero que esto se debe a algún tipo de contaminación (por ejemplo la fusión de dos archivos de datos independiente o errores sistemáticos de datos durante colección en una fecha determinada). Árboles con GLM podría partición de la de datos en una forma que nos permite encontrar los segmentos que tienen la mala adaptación y encontrar los segmentos para que el ajuste puede ser bastante buena.

  • La estructura de árbol permite que los efectos de estas covariables a ser no-lineal y altamente interactivo, como oposición a asumir un lineal en influencia en el medio.

  • Árboles con GLM puede conducir a una perspectiva adicional de un a priori supone modelo paramétrico, especialmente si los mecanismos subyacentes son demasiado complejo para ser capturado por el GLM.

  • Árboles con GLM puede detectar automáticamente las interacciones, no-linealidad, modelo misspecification, unregarded covariable influencia y así sucesivamente.

  • Pueden ser utilizados como una herramienta de exploración en el complejo y datos de gran tamaño los conjuntos para los cuales tiene un número de ventajas.

  • En comparación con un global de GLM, un GLM modelo de árbol puede aliviar el problema de sesgo y modelo misspecification y proporcionar un mejor ajuste.

  • En comparación con el árbol de algoritmos con constantes, la especificación de un modelo paramétrico en los nodos terminales pueden añadir estabilidad y por lo tanto, reducir la varianza de los tres métodos.

  • Al ser un híbrido de los árboles y el clásico GLM-tipo de modelos, el rendimiento generalmente se encuentra entre esos dos polos: Ellos tienden a mostrar una mayor poder predictivo de los modelos clásicos, pero menos que los no-paramétricas de los árboles.

  • Que añadir la complejidad de la comparación con el modelo clásico debido a la proceso de división, pero suelen ser más parsimonous de no paramétrico de los árboles.

  • Ellos muestran una mayor varianza de la predicción de un modelo global en bootstrap los experimentos, pero mucho menos que los no-paramétrico de árboles (incluso poda queridos).

  • El uso de un GLM en el nodo de un árbol típicamente conduce a los árboles más pequeños

  • El uso de un GLM en el nodo de un árbol típicamente conduce a la más estable predicciones frente a un árbol con sólo una constante (pero no como estable como empaque o bosques de árboles)

  • La VC de la Dimensión de un árbol con GLM en los nodos es mayor que el equivalente árbol con sólo una constante (ya que este último es un caso especial de la anterior)

Con respecto a la "eficacia" (supongo que te refieres a el rendimiento predictivo) de los árboles, con el GLM, la mayoría de los documentos citados en los dos párrafos anteriores enlaces proporcionan cierta investigación. Sin embargo, una integral, amplia comparación de todos los algoritmos con competidores como estándar de los árboles no se han hecho con la mejor de mis conocimientos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X