5 votos

Árbol de decisión con puntos iguales.

Supongamos que tengo un árbol de decisiones construido, y en el conjunto de entrenamiento hay dos puntos, por ejemplo,$x_1$ y$x_2$, que son completamente iguales. ¿Qué sucede si elimino exactamente uno de ellos de los datos de entrenamiento? ¿Se cambiará el árbol de decisión?

2voto

Raff.Edward Puntos 573

Los puntos de división pueden o no cambiarse en absoluto, las divisiones de decisión dependen de todos los datos en un nodo, no solo de 2 puntos. Incluso si cambian, es probable que el cambio de la eliminación de cualquier punto sea muy mínimo. Al menos 1 puntaje de probabilidad del nodo de hoja cambiará muy ligeramente ya que hay un punto de datos menos.

2voto

James Puntos 1294

El árbol de decisión puede o no puede cambiar dependiendo de su conjunto de datos. El árbol de decisión es probable que el cambio si el conjunto de datos tiene un número pequeño de puntos.

Por ejemplo, supongamos $T$ ser un conjunto de entrenamiento con un atributo continuo $A$ y un binario clase de destino $C$. Vamos a utilizar el coeficiente de Gini ganancia $\Delta$ como la división de criterio - ver un ejemplo aquí. Digamos que usted tiene dos puntos duplicados $x_1$$x_2$$x_1 = x_2$.

Si el conjunto de datos es:

A C
1 +
1 +
2 -

Entonces no habrá ninguna diferencia mediante la eliminación de uno de los duplicados momento (por ejemplo, la primera). El conjunto de datos se divide en dos grupos de acuerdo a la corte de $1$$A$, de todos modos.

Si el conjunto de datos es:

A  C
1 +
1 +
2 -
3 +
4 +
5 -

La división inducida en este conjunto de datos será diferente de la fractura inducida en el conjunto de datos donde podemos quitar los duplicados momento (por ejemplo, la primera).

  • La división inducida en este conjunto de datos se encuentra mediante la optimización de $\Delta$ en todos los cut-offs para $A$. Si lo haces, verás que la mejor $\Delta$ se obtiene con $1$ como punto de corte para el $A$. ($\Delta = 0.11$);
  • Si eliminamos el primer punto, el procedimiento de optimización se selecciona el corte de $4$$A$. El cut-off $1$$\Delta = 0.08$, el punto de corte en $2$$\Delta = 0.013$, y el corte de $4$$\Delta = 0.18$.

Los dos ejemplos anteriores están relacionados con un pequeño número de puntos. Usted puede imaginar que lo que sucedió en el segundo ejemplo es más probable que ocurra si el número de puntos de datos es pequeño. Por lo tanto, es más probable que los nodos en la parte inferior de su árbol de decisión de cambio de lugar de la nariz en la parte superior, es decir, es muy difícil que el nodo raíz de un árbol de decisión cambios.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X