39 votos

Son árboles de decisión, casi siempre, árboles binarios?

Casi todos los árboles de decisión ejemplo me he topado pasa a ser un árbol binario. Es esto prácticamente universal? La mayoría de los algoritmos estándar (C4.5, CARRO, etc.) sólo el apoyo árboles binarios? De lo que deduzco, CHAID no se limita a los árboles binarios, pero que parece ser una excepción.

Una división en dos partes, seguido por otro de dos vías dividir a uno de los niños no es la misma cosa como una sola división en tres partes. Este podría ser un académico de punto, pero estoy tratando de asegurarme de que entiendo el más común de los casos de uso.

29voto

pkaeding Puntos 12935

Esto es principalmente una cuestión técnica: si no restringir a elecciones binarias, simplemente hay demasiadas posibilidades para que la siguiente división en el árbol. Así que usted está definitivamente a la derecha en todos los puntos de su pregunta.

Ser conscientes de que la mayoría de los árboles tipo de algoritmos de trabajo paso a paso y son, incluso, como tal, no garantizado para darle el mejor resultado posible. Esto es solo una advertencia.

Para la mayoría de los propósitos prácticos, aunque no durante la construcción/de la poda del árbol, los dos tipos de divisiones son equivalentes, aunque, dado que aparecen inmediatamente después de la otra.

9voto

Bou Puntos 1859

Una división en dos partes, seguido por otro de dos vías dividir a uno de los niños no es la misma cosa como una sola división en tres partes

No estoy seguro de lo que quieres decir aquí. De cualquier modo multi-split puede ser representada como una serie de divisiones. Por una división en tres partes, se puede dividir en a, B y C de la primera división en Una&B frente a C y, a continuación, dividir a cabo Una de B.

Un algoritmo dado podría no elegir esa secuencia en particular (sobre todo si, como la mayoría de los algoritmos, es codicioso), pero sin duda podría. Y si la aleatorización o stagewise procedimientos se llevan a cabo como en bosques aleatorios o aumentar los árboles, las posibilidades de encontrar la secuencia correcta de divisiones. Como otros han señalado, multi-splits son computacionalmente costosos, por lo que dadas estas alternativas, la mayoría de los investigadores parecen haber elegido binario se divide.

Espero que esto ayude

6voto

Psycho Bob Puntos 661

Con respecto a los usos de árbol de decisión y la división binaria (binary versus lo contrario), yo sólo sé de CHAID que no tiene binario se divide, pero existen otras. Para mí, el principal uso de un no binario split es en la minería de datos ejercicios donde estoy mirando cómo de manera óptima bin una variable nominal con muchos niveles. Una serie de binario se divide no es tan útil como una agrupación hecho por CHAID.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X