22 votos

¿Cuándo no debo utilizar un clasificador ensemble?

En general, en un problema de clasificación en el que el objetivo es predecir con exactitud la pertenencia a una clase fuera de la muestra, ¿cuándo debería I no utilizar un clasificador ensemble?

Esta pregunta está estrechamente relacionada con ¿Por qué no utilizar siempre el aprendizaje por conjuntos? . Esa pregunta se refiere a por qué no usamos conjuntos todo el tiempo. Quiero saber si hay casos en los que se sabe que los conjuntos son peor (no sólo "no es mejor y es una pérdida de tiempo") que un equivalente sin conjunto.

Y por "clasificador conjunto" me refiero específicamente a clasificadores como AdaBoost y los bosques aleatorios, en contraposición a, por ejemplo, una máquina de vectores soporte potenciada.

18voto

Pedro Lobito Puntos 104

No recomiendo utilizar un clasificador ensemble cuando el modelo debe ser interpretable y explicable. A veces se necesitan predicciones y explicaciones de las predicciones.

Cuando hay que convencer a la gente de que merece la pena creer en las predicciones, un modelo muy preciso puede ser muy persuasivo, pero me ha costado mucho convencer a la gente de que actúe según las predicciones cuando los métodos son demasiado complejos para su nivel de comodidad.

Según mi experiencia, la mayoría de las personas se sienten cómodas con los modelos aditivos lineales, modelos que podrían puntuar a mano, y si intentas explicarles el refuerzo adaptativo, los hiperplanos y los efectos de interacción de 5º nivel responderán como si les estuvieras lanzando magia negra.

Por otro lado, las personas pueden sentirse cómodas con la complejidad del modelo, pero seguir queriendo interiorizar algunas ideas. Los científicos, por ejemplo, pueden no considerar un modelo de caja negra como un avance en el conocimiento humano, aunque el modelo sea muy preciso.

El análisis de la importancia de las variables puede ayudar a comprenderlo, pero si el conjunto es más preciso que un modelo aditivo lineal, es probable que el conjunto esté aprovechando algunos efectos no lineales y de interacción que el análisis de la importancia de las variables no puede tener en cuenta por completo.

11voto

Kawish Puntos 56

El modelo que más se aproxime al verdadero proceso de generación de datos será siempre el mejor y vencerá a la mayoría de los métodos de conjunto. Así, si los datos proceden de un proceso lineal, lm() será muy superior a los bosques aleatorios, por ejemplo:

    set.seed(1234)
p=10
N=1000
#covariates
x = matrix(rnorm(N*p),ncol=p)
#coefficients:
b = round(rnorm(p),2)
y = x %*% b + rnorm(N)
train=sample(N, N/2)
data = cbind.data.frame(y,x)
colnames(data) = c("y", paste0("x",1:p))
#linear model
fit1 = lm(y ~ ., data = data[train,])
summary(fit1)
yPred1 =predict(fit1,data[-train,])
round(mean(abs(yPred1-data[-train,"y"])),2)#0.79

library(randomForest)
fit2 = randomForest(y ~ ., data = data[train,],ntree=1000)
yPred2 =predict(fit2,data[-train,])
round(mean(abs(yPred2-data[-train,"y"])),2)#1.33

3voto

Valentin Kantor Puntos 176

Me gustaría añadir algo a la respuesta de branco. Los conjuntos pueden ser muy competitivos y dar muy buenos resultados. En el mundo académico, por ejemplo, esto es lo que cuenta. En la industria, los conjuntos pueden ser demasiado difíciles de implementar/mantener/modificar/portar. El trabajo de Goef Hinton sobre "Dark Knowledge" trata exactamente de esto: cómo transferir el "conocimiento" de un gran conjunto a un modelo fácil de mover. Afirma que los conjuntos son malos a la hora de realizar pruebas: son muy redundantes y el tiempo de cálculo puede ser preocupante.

Su equipo obtuvo algunos resultados interesantes, sugiero consultar sus publicaciones o al menos las diapositivas. Si mi memoria no me falla, este fue uno de los temas candentes de 2013 o 2014.

Las diapositivas sobre Dark Knowledge pueden consultarse aquí: http://www.ttic.edu/dl/dark14.pdf

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X