16 votos

¿Captan los árboles CART las interacciones entre los predictores?

Este papel afirma que en CART, debido a que se realiza una división binaria en una sola covariable en cada paso, todas las divisiones son ortogonales y, por lo tanto, no se consideran las interacciones entre las covariables.

Sin embargo, muchas referencias muy serias afirman, por el contrario, que la estructura jerárquica de un árbol garantiza que las interacciones entre los predictores se modelen automáticamente (por ejemplo, este documento y, por supuesto, el libro de Hastie Elements of Statistical Learning).

¿Quién tiene razón? ¿Los árboles generados por CART capturan las interacciones entre las variables de entrada?

Referencias:

Artículo 1: Lee, Sun-Mi, y Patricia A. Abbott. "Redes bayesianas para el descubrimiento de conocimientos en grandes conjuntos de datos: fundamentos para los investigadores de enfermería". Journal of biomedical informatics 36.4-5 (2003): 389-399.

Artículo 2: Elith, Jane, John R. Leathwick y Trevor Hastie. "A working guide to boosted regression trees". Journal of Animal Ecology 77.4 (2008): 802-813.

1 votos

El fallo en el argumento es que las divisiones se hacen en subconjuntos de las covariables definidas por las divisiones realizadas anteriormente.

1 votos

@mbq así que los nuevos splits son condicionales con respecto a los splits anteriores... Ya veo... Supongo que me costaba entender que "condicionado por un split anterior realizado sobre un determinado predictor" era equivalente a "interactuando con este predictor"...

20voto

TrynnaDoStat Puntos 3590

CART puede capturar los efectos de la interacción. Un efecto de interacción entre X1X1 y X2X2 se produce cuando el efecto de la variable explicativa X1X1 sobre la variable de respuesta YY depende del nivel de X2X2 . Esto ocurre en el siguiente ejemplo:

enter image description here

El efecto de las malas condiciones económicas (llámese X1X1 ) depende del tipo de edificio que se compre ( X2X2 ). Cuando se invierte en un edificio de oficinas, las malas condiciones económicas disminuyen el valor previsto de la inversión en 140.000 dólares. Pero cuando se invierte en un edificio de apartamentos, el valor previsto de la inversión disminuye en 20.000 dólares. El efecto de las malas condiciones económicas sobre el valor previsto de la inversión depende del tipo de propiedad que se compre. Se trata de un efecto de interacción.

8voto

Jose Daniel Puntos 13

Respuesta corta

Los CART necesitan ayuda para captar las interacciones.

Respuesta larga

Tomemos el algoritmo codicioso exacto (Chen y Guestrin, 2016):

The exact greedy algorithm

La media en la hoja será una expectativa condicional, pero cada división en el camino a la hoja es independiente de la otra. Si la característica A no es importante por sí misma, pero sí lo es en interacción con la característica B, el algoritmo no se dividirá en la característica A. Sin esta división, el algoritmo no puede prever la división en la característica B, necesaria para generar la interacción.

Los árboles pueden recoger interacciones en los escenarios más simples. Si tiene un conjunto de datos con dos características x1,x2x1,x2 y el objetivo y=XOR(x1,x2)y=XOR(x1,x2) el algoritmo no tiene nada que dividir sino x1x1 y x2x2 Por lo tanto, obtendrá cuatro hojas con XORXOR estimado correctamente.

Con muchas características, la regularización y el límite duro del número de divisiones, el mismo algoritmo puede omitir las interacciones.

Soluciones al problema

Interacciones explícitas como nuevas características

Un ejemplo de Zhang ("Winning Data Science Competitions", 2015):

Zhang on interactions

Algoritmos de árbol que no son de tipo "greedy".

En la otra pregunta, Simone sugiere algoritmos basados en el lookahead y árboles de decisión oblicuos .

Un enfoque de aprendizaje diferente

Algunos métodos de aprendizaje manejan mejor las interacciones.

Esta es una tabla de Los elementos del aprendizaje estadístico (línea "Capacidad de extraer combinaciones lineales de características"):

Comparison of learning methods

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X