5 votos

Árbol de decisión y los valores que faltan

Necesito predecir con un modelo simple, si un cliente de un banco aún está activa.

Tengo cierta información como la fecha de la última reunión con el cliente, pero algunos de ellos no tenía ninguna reunión con su asesor.

Customer_Id |  Last_meeting_date (in days from now) | Gender |...
A                115                                   F      ...
B                NA                                    F      ...

Es posible utilizar un valor especial/bandera como 1000 para "indicar" el árbol que no tenemos ninguna fecha ?

En mi mente, el árbol de decisión no es lineal como la regresión, por lo que se puede hacer una excepción, como si Last_meeting_date=1000 entonces... pero no estoy seguro de ello.

6voto

Alexey Grigorev Puntos 1751

Usted tendrá que modificar el algoritmo ligeramente

La modificación:

La construcción de algo

  • supongamos que tenemos una división de la prueba de criterio $T$ y el conjunto de datos $S$
  • la obtención de información para la división de $S$ $T$ es
    • $\Delta I (S, T) = I(S) - \sum_k \alpha_{T, k} \cdot I(S_k)$
  • deje $S_0 \subseteq S$ para los que no podemos evaluar $T$ (debido a que algunos valores son NAs)
  • si $S_0 \not \equiv \varnothing$
    • calcular la ganancia de información como
    • $\frac{|S - S_0|}{| S |} \Delta I (S - S_0, T)$
  • supongamos que tal $T$ es elegido, qué hacer con los valores de $S_0$?
    • agregar a todos los subconjuntos con peso proporcional al tamaño de estos subconjuntos
    • $w_k = \frac{| S |}{|S - S_0|}$
    • y la obtención de información se calcula utilizando las sumas de pesos en lugar de los condes

Clasificación

  • deje $P(C | E,T)$ la probabilidad de clasificar caso de $E$ clase $C$, usando el árbol de $T$
  • definir de forma recursiva:
  • si $t = \text{root}(T)$ es una hoja (es decir, es un singleton árbol)
    • a continuación, $P(C \ |\ E,T)$ es la frecuencia relativa de casos de entrenamiento en clase $C$ que alcanzan $T$
  • si $t = \text{root}(T)$ no es una hoja y $t$ es particiones mediante el atributo $X$
    • si $E.X = x_k$
    • a continuación, $P(C \ |\ E,T) = P(C \ |\ E,T_k)$ donde $T_k$ es un subárbol de $T$ donde $X = x_k$
    • si $E.X$ es desconocido,
    • a continuación, $P(C \ | \ E,T) = \sum_{k=1}^{K} \frac{|S_k|}{|S-S_0|} \cdot P(C \ | \ E,T)$
    • así se resumen las probabilidades de pertenencia a la clase $C$ por cada hijo de $t$
  • predecir que un registro pertenece a la clase $C$ mediante la selección de la más alta probabilidad de $P(C \ | \ E,T)$

Ejemplo

Edificio

Supongamos que tenemos los siguientes datos:

data-example

  • Hay una falta de valor para $X$: $(?, 90, \text{Yes}, +)$
  • deje $I$ ser la mala clasificación de error
  • $I(S - S_0) = 5/13$ (5 "-", 8 "+")
  • $I(S - S_0 \ | \ X = a) = 2/5$
  • $I(S - S_0 \ |\ X = b) = 0$
  • $I(S - S_0 \ |\ X = c) = 2/5$
  • calcular el IG $\frac{|S - S_0|}{| S |} \Delta I (S - S_0, T)$
  • $\Delta I = \frac{13}{14} \cdot (\frac{5}{13} - \frac{5}{13} \cdot \frac{2}{5} - \frac{3}{13} \cdot 0 - \frac{5}{13} \cdot \frac{2}{5}) = \frac{1}{14}$

Así obtenemos la siguiente división

split

Clasificación

tree-classification-example

  • suponga que $X$ es desconocido - cómo clasificar el caso?
  • $P(+ \ | \ E,T) = \sum_{k=1}^{K} P(+ \ | \ E,T_k) = \frac{20}{50} \cdot \frac{15}{20} + \frac{30}{50} \cdot \frac{5}{30} = \frac{20}{50}$
  • $P(- \ | \ E,T) = \sum_{k=1}^{K} P(- \ | \ E,T_k) = \frac{20}{50} \cdot \frac{5}{20} + \frac{30}{50} \cdot \frac{25}{30} = \frac{30}{50}$
  • $P(- \ | \ E,T) > P(+ \ | \ E,T) \Rightarrow$ predecir "$-$"

Fuente

1voto

lejlot Puntos 1379

En el caso de árbol de decisión, falta de datos inputation tiene sentido (especialmente, que aquí esta enorme número de días que claramente tiene sentido, como estar de pie para "infinito"). Usted también puede encontrar esta respuesta:

La asignación de valores a la falta de datos para su uso en la regresión logística binaria en SAS

útil, como se trata de problema similar.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X