Estoy ejecutando una clasificación de árbol de decisión utilizando SPSS en un conjunto de datos con unos 20 predictores (categóricos con pocas categorías). CHAID (Detección Automática de Interacción Chi-cuadrado) y CRT/CART (Árboles de Clasificación y Regresión) me están dando árboles diferentes. ¿Puede alguien explicarme las ventajas relativas de CHAID frente a CRT? ¿Qué implicaciones tiene utilizar un método en lugar del otro?
Respuestas
¿Demasiados anuncios?Voy a enumerar algunas propiedades y más tarde le dará mi valoración por lo que vale la pena:
- CHAID utiliza divisiones multidireccionales por defecto (las divisiones multidireccionales significan que el nodo actual se divide en más de dos nodos). Esto puede ser deseable o no (puede dar lugar a mejores segmentos o a una interpretación más fácil). Lo que definitivamente hace, sin embargo, es diluir el tamaño de la muestra en los nodos y por lo tanto conducir a árboles menos profundos. Cuando se utiliza con fines de segmentación, esto puede resultar contraproducente, ya que CHAID necesita un gran tamaño de muestra para funcionar bien. CART realiza divisiones binarias (cada nodo se divide en dos nodos hijos) por defecto.
- CHAID está pensado para trabajar con categórico/discrecional (XAID era para regresión, pero quizá se hayan fusionado desde entonces). CART puede realizar regresión y clasificación.
- CHAID utiliza un idea previa a la poda . Un nodo sólo se divide si se cumple un criterio de importancia. Esto enlaza con el problema anterior de la necesidad de muestras de gran tamaño, ya que la prueba de Chi-cuadrado tiene poca potencia en muestras pequeñas (que se reduce aún más con una corrección de Bonferroni para pruebas múltiples). En cambio, CART crea un gran árbol y luego después de las ciruelas el árbol a una versión más pequeña.
- Así, CHAID intenta evitar el sobreajuste desde el principio (sólo se divide si existe una asociación significativa), mientras que CART puede sobreajustarse fácilmente a menos que se pode el árbol. Por otra parte, esto permite que CART funcione mejor que CHAID dentro y fuera de la muestra (para una determinada combinación de parámetros de ajuste).
- En mi opinión, la diferencia más importante es que la variable split y la selección del punto de división en CHAID está menos condicionada que en CART . Esto es en gran medida irrelevante cuando los árboles se utilizan para la predicción, pero es una cuestión importante cuando los árboles se utilizan para la interpretación: Se dice que un árbol en el que esas dos partes del algoritmo están muy confundidas está "sesgado en la selección de variables" (un nombre desafortunado). Esto significa que la selección de variables divididas prefiere variables con muchas divisiones posibles (digamos predictores métricos). CART está muy "sesgado" en ese sentido, CHAID no tanto.
- Con las divisiones sustitutas, CART sabe cómo manejar los valores perdidos (divisiones sustitutas significa que con valores perdidos (NA) para las variables predictoras, el algoritmo utiliza otras variables predictoras que no son tan "buenas" como la variable de división primaria, pero que imitan las divisiones producidas por el divisor primario). CHAID no tiene nada parecido.
Así que dependiendo de para qué lo necesites yo sugeriría usar CHAID si la muestra es de cierto tamaño y los aspectos de interpretación son más importantes. Además, si se desean divisiones multidireccionales o árboles más pequeños CHAID es mejor. Por otro lado, CART es una máquina de predicción que funciona bien, por lo que si su objetivo es la predicción, me decantaría por CART.
Todos los métodos de árbol único implican un asombroso número de comparaciones múltiples que aportan una gran inestabilidad al resultado. Por eso, para lograr una discriminación predictiva satisfactoria es necesario algún tipo de promediado de árboles (bagging, boosting, bosques aleatorios) (salvo que se pierde la ventaja de los árboles: la interpretabilidad). La simplicidad de los árboles simples es en gran medida una ilusión. Son sencillos porque son erróneos en el sentido de que entrenar el árbol con múltiples subconjuntos grandes de los datos revelará un gran desacuerdo entre las estructuras de los árboles.
No he examinado ninguna metodología CHAID reciente, pero CHAID en su encarnación original era un gran ejercicio de sobreinterpretación de los datos.