Estoy un poco confundido con el cálculo de CP en el resumen de un objeto rpart
.
Toma este ejemplo
df <- data.frame(x=c(1, 2, 3, 3, 3),
y=factor(c("a", "a", "b", "a", "b")),
method="class")
mytree<-rpart(y ~ x, data = df, minbucket = 1, minsplit=1)
summary(mytree)
Call:
rpart(formula = y ~ x, data = df, minbucket = 1, minsplit = 1)
n= 5
CP nsplit rel error xerror xstd
1 0.50 0 1.0 1 0.5477226
2 0.01 1 0.5 2 0.4472136
Importancia de las variables
x
100
Nodo número 1: 5 observaciones, parámetro de complejidad=0.5
clase predicha=a pérdida esperada=0.4 P(nodo) =1
recuento de clases: 3 2
probabilidades: 0.600 0.400
hijo izquierdo=2 (2 obs) hijo derecho=3 (3 obs)
Divisiones primarias:
x < 2.5 a la izquierda, mejora=1.066667, (0 faltantes)
Para el nodo raíz, habría pensado que el CP debería ser 0.4 ya que la probabilidad de clasificar erróneamente un elemento en la raíz es 0.4 y el tamaño del árbol en la raíz es 0. ¿Cómo es que 0.5 es el CP correcto?