Su intuición es correcta. Esta respuesta simplemente lo ilustra con un ejemplo.
En efecto, se trata de un común La idea errónea de que el CART/RF es de alguna manera robusto a los valores atípicos.
Para ilustrar la falta de solidez de la RF ante la presencia de un único valor atípico, podemos modificar (ligeramente) el código utilizado en la respuesta de Soren Havelund Welling anterior para mostrar que a solo Los valores atípicos de 'y' bastan para que el modelo de RF ajustado se tambalee por completo. Por ejemplo, si calculamos el error medio de predicción de las observaciones no contaminadas en función de la distancia entre el valor atípico y el resto de los datos, podemos ver (imagen inferior) que introduciendo un solo El valor atípico (sustituyendo una de las observaciones originales por un valor arbitrario en el espacio 'y') basta para alejar arbitrariamente las predicciones del modelo de RF de los valores que habrían tenido si se hubieran calculado con los datos originales (no contaminados):
library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)
X = data.frame(replicate(2,runif(2000)-.5))
y = -sqrt((X[,1])^4+(X[,2])^4)
X[1,]=c(0,0);
y2<-y
rg<-randomForest(X,y) #RF model fitted without the outlier
outlier<-rel_prediction_error<-rep(NA,10)
for(i in 1:10){
y2[1]=100*i+2
rf=randomForest(X,y2) #RF model fitted with the outlier
rel_prediction_error[i]<-mean(abs(rf$predict[-1]-y2[-1]))/mean(abs(rg$predict[-1]-y[-1]))
outlier[i]<-y2[1]
}
plot(outlier,rel_prediction_error,type='l',ylab="Mean prediction error (on the uncontaminated observations) \\\ relative to the fit on clean data",xlab="Distance of the outlier")
¿A qué distancia? En el ejemplo anterior, el único valor atípico ha cambiado tanto el ajuste que el error medio de predicción (en las observaciones no contaminadas) es ahora 1-2 órdenes de magnitud mayor de lo que habría sido si el modelo se hubiera ajustado a los datos no contaminados.
Por tanto, no es cierto que un solo valor atípico no pueda afectar al ajuste de la RF.
Además, como señalo en otro lugar Los valores atípicos son mucho más difíciles de tratar cuando hay varios de ellos (aunque no es necesario que sean un gran proporción de los datos para que aparezcan sus efectos). Por supuesto, los datos contaminados pueden contener más de un valor atípico; para medir el impacto de varios valores atípicos en el ajuste de la RF, compare el gráfico de la izquierda obtenido a partir de la RF en los datos no contaminados con el gráfico de la derecha obtenido desplazando arbitrariamente el 5% de los valores de las respuestas (el código está debajo de la respuesta).
Por último, en el contexto de la regresión, es importante señalar que los valores atípicos pueden destacarse del grueso de los datos tanto en el espacio de diseño como en el de respuesta (1). En el contexto específico de la RF, los valores atípicos de diseño afectarán a la estimación de los hiperparámetros. Sin embargo, este segundo efecto se manifiesta más cuando el número de dimensiones es grande.
Lo que observamos aquí es un caso particular de un resultado más general. La extrema sensibilidad a los valores atípicos de los métodos de ajuste de datos multivariantes basados en funciones de pérdida convexas ha sido redescubierta muchas veces. Véase (2) para una ilustración en el contexto específico de los métodos ML.
Editar.
Afortunadamente, aunque el algoritmo CART/RF básico no es en absoluto robusto frente a los valores atípicos, es posible (y muy fácil) modificar el procedimiento para dotarlo de robustez frente a los valores atípicos "y". Ahora me centraré en los RF de regresión (ya que esto es más específicamente el objeto de la pregunta del PO). Más concretamente, escribiendo el criterio de división para un nodo arbitrario $t$ como:
$$s^=\arg\max_{s} [p_L \text{var}(t_L(s))+p_R\text{var}(t_R(s))]$$
donde $t_L$ y $t_R$ son nodos hijos emergentes que dependen de la elección de $s^$ ( $t_L$ y $t_R$ son funciones implícitas de $s$ ) y $p_L$ denota la fracción de datos que recae en el nodo hijo de la izquierda $t_L$ y $p_R=1p_L$ es la proporción de datos en $t_R$ . Entonces, se puede impartir la robustez del espacio "y" a los árboles de regresión (y, por tanto, a los RF) sustituyendo el funcional de varianza utilizado en la definición original por una alternativa robusta. Este es, en esencia, el enfoque utilizado en (4), donde la varianza se sustituye por un estimador M robusto de la escala.
- (1) Desenmascarar los valores atípicos multivariantes y los puntos de apalancamiento. Peter J. Rousseeuw y Bert C. van Zomeren Revista de la Asociación Americana de Estadística Vol. 85, No. 411 (Sep., 1990), pp. 633-639
- (2) El ruido de clasificación aleatorio derrota a todos los reforzadores potenciales convexos. Philip M. Long y Rocco A. Servedio (2008). http://dl.acm.org/citation.cfm?id=1390233
- (3) C. Becker y U. Gather (1999). The Masking Breakdown Point of Multivariate Outlier Identification Rules.
- (4) Galimberti, G., Pillati, M., & Soffritti, G. (2007). Robust regression trees based on M-estimators. Statistica, LXVII, 173-190.
library(forestFloor)
library(randomForest)
library(rgl)
set.seed(1)
X<-data.frame(replicate(2,runif(2000)-.5))
y<--sqrt((X[,1])^4+(X[,2])^4)
Col<-fcol(X,1:2) #make colour pallete by x1 and x2
#insert outlier2 and colour it black
y2<-y;Col2<-Col
y2[1:100]<-rnorm(100,200,1); #outliers
Col[1:100]="#000000FF" #black
#plot training set
plot3d(X[,1],X[,2],y,col=Col)
rf=randomForest(X,y) #RF on clean data
rg=randomForest(X,y2) #RF on contaminated data
vec.plot(rg,X,1:2,col=Col,grid.lines=200)
mean(abs(rf$predict[-c(1:100)]-y[-c(1:100)]))
mean(abs(rg$predict[-c(1:100)]-y2[-c(1:100)]))
0 votos
La respuesta, a continuación, es muy buena. La respuesta intuitiva es que un árbol de decisión funciona con divisiones y las divisiones no son sensibles a los valores atípicos: una división sólo tiene que caer en cualquier lugar entre dos grupos de puntos para dividirlos.
0 votos
Así que supongo que si el
min_samples_leaf_node
es1
Entonces podría ser susceptible a los valores atípicos.0 votos
sí min/muestras y muestra bootstrap pueden eliminar completamente la influencia de los valores atípicos 1b en la regresión RF
1 votos
Algunos estadísticos obtienen una visión de túnel sobre los inliers, que se pueden predecir y comprender. Aprecian los valores atípicos como "incógnitas conocidas" y se preguntan si su modelo de negocio es frágil ante ellos. Algunos valores atípicos son fundamentalmente imprevisibles, pero su impacto es muy real... una paráfrasis de N. Taleb, 'Cisne Negro'