16 votos

¿Puede aplicarse la metodología Random Forest a las regresiones lineales?

Los bosques aleatorios funcionan creando un conjunto de árboles de decisión en el que cada árbol se crea utilizando una muestra bootstrap de los datos de entrenamiento originales (muestra tanto de variables de entrada como de observaciones).

¿Puede aplicarse un proceso similar a la regresión lineal? Crear k modelos de regresión lineal utilizando una muestra bootstrap aleatoria para cada una de las k regresiones.

¿Cuáles son las razones para NO crear un modelo de tipo "regresión aleatoria"?

Gracias. Si hay algo que no entiendo, por favor, dímelo.

0 votos

Cuando se agregan árboles por bootstrap, la función de regresión global se vuelve cada vez más compleja con cada árbol que se añade. Por otro lado, cuando se hace bootstrap agregando funciones lineales de la forma a_0 + a_1 * x_1 + ... + a_d * x_d la función lineal promediada resultante (tras la agregación bootstrap) sigue teniendo la misma forma funcional lineal que aquella con la que se empieza (es decir, el "aprendiz base").

1 votos

@Andre Holzner - lo que dices es cierto, pero, pero, pero... hacer este forraje aleatorio es en realidad una forma de regularización, de una clase similar a las crestas. Te voy a contar un secreto, un árbol de regresión es en realidad un modelo lineal - clase similar a splines. poniendo mi sombrero bayesiano en, el regularizador forrest aleatoria probablemente correspondería aproximadamente a los "pico y losa" priors utilizados en el contexto bayesiano.

0 votos

@probabilityislogic, ¿puedes explicarlo?

14voto

Dreur Puntos 28

Para poner la respuesta de @ziggystar en términos de la jerga del aprendizaje automático: la idea detrás de las técnicas de agregación bootstrap (por ejemplo, los bosques aleatorios) es ajustar muchos modelos de bajo sesgo y alta varianza a datos con algún elemento de "aleatoriedad" o "inestabilidad". En el caso de los bosques aleatorios, la inestabilidad se añade mediante bootstrapping y eligiendo un conjunto aleatorio de características para dividir cada nodo del árbol. El promedio de estos árboles ruidosos, pero de bajo sesgo, alivia la alta varianza de cualquier árbol individual.

Mientras que los árboles de regresión/clasificación son modelos de "bajo sesgo, alta varianza", los modelos de regresión lineal suelen ser lo contrario: "alto sesgo, baja varianza". Por lo tanto, el problema al que uno se enfrenta a menudo con los modelos lineales es la reducción del sesgo, no la reducción de la varianza. La agregación de Bootstrap simplemente no está hecha para hacer esto.

Un problema adicional es que el bootstrap puede no proporcionar suficiente "aleatoriedad" o "inestabilidad" en un modelo lineal típico. Yo esperaría que un árbol de regresión fuera más sensible a la aleatoriedad de las muestras bootstrap, ya que cada hoja normalmente sólo contiene un puñado de puntos de datos. Además, los árboles de regresión pueden crecer estocásticamente dividiendo el árbol en un subconjunto aleatorio de variables en cada nodo. Véase esta pregunta anterior para saber por qué esto es importante: ¿Por qué se dividen los bosques aleatorios en función de m características aleatorias?

Dicho esto, se puede utilizar bootstrapping en modelos lineales. [LINK] y esto puede ser muy útil en determinados contextos. Sin embargo, la motivación es muy diferente a la de las técnicas de agregación bootstrap.

0 votos

Gracias por los enlaces y la respuesta. Si el método de la aleatoriedad es útil para los modelos de "sesgo bajo, varianza alta", ¿existen metodologías para tratar el tipo opuesto de modelos "sesgo alto, varianza baja"?

0 votos

Si se dispone de un modelo con un sesgo bajo y una varianza alta, metodologías como el ensacado pueden reducir la varianza con un ligero aumento del sesgo. Si tiene un sesgo alto y una varianza baja, utilice un modelo con un sesgo más bajo y una varianza más alta, como una regresión polinómica o, de forma más general, métodos kernel.

10voto

bitbonk Puntos 222

Supongo que, si fueras a hacer esto con $k$ yendo a infinito, se obtendría el modelo de regresión lineal que se obtiene haciendo una regresión lineal ordinaria con la muestra completa. Observe que la media de $k$ modelos lineales estructuralmente iguales es de nuevo un modelo lineal estructuralmente igual, simplemente con los parámetros promediados (utilice la ley distributiva). Pero no hice las matemáticas y no estoy completamente seguro.

Y he aquí por qué no es tan atractivo hacer lo "aleatorio" con los modelos lineales como con los árboles de decisión:

Es muy probable que un árbol de decisión grande creado a partir de una muestra grande sobreajuste los datos, y el método de bosque aleatorio combate este efecto al basarse en una votación de muchos árboles pequeños.

Por otro lado, la regresión lineal es un modelo poco propenso al sobreajuste, por lo que no resulta perjudicial entrenarlo con la muestra completa al principio. E incluso si tiene muchas variables regresoras, puede aplicar otras técnicas, como la regularización, para combatir el sobreajuste.

6voto

Grevling Puntos 123

Estoy parcialmente en desacuerdo con las respuestas actuales porque la metodología sobre la que se construye el bosque aleatorio introduce varianza (CARTs construidos sobre muestras bootstrapped + método del subespacio aleatorio) para hacerlos independientes. Una vez que se dispone de árboles ortogonales, la media de sus predicciones tiende (en muchos casos) a ser mejor que la predicción del árbol medio (debido a la desigualdad de Jensen). Aunque los CART presentan ventajas notables cuando se someten a este tratamiento, esta metodología se aplica sin duda a cualquier modelo, y los modelos lineales no son una excepción. He aquí un paquete R que es exactamente lo que está buscando. Presenta un buen tutorial sobre cómo afinarlos e interpretarlos y bibliografía sobre el tema: Modelos lineales generalizados aleatorios .

1voto

Ron K. Puntos 19

Estoy de acuerdo con @ziggystar. A medida que el número de muestras bootstrap $k$ converge a infinito, la estimación embolsada del modelo lineal converge a la estimación OLS (Ordinary Least Squares) del modelo lineal ejecutado en toda la muestra. La forma de demostrarlo es viendo que el bootstrap "finge" que la distribución de la población es la misma que la distribución empírica. A medida que muestree más y más conjuntos de datos de esta distribución empírica, el promedio de los hiperplanos estimados convergerá al "hiperplano verdadero" (que es la estimación OLS ejecutada sobre la totalidad de los datos) por las propiedades asintóticas de los mínimos cuadrados ordinarios.

También, embolsado no siempre es bueno. No sólo no combate la parcialidad, sino que puede aumentar el sesgo en algunos casos peculiares . Ejemplo: $$ X_1, X_2, ..., X_n \sim Be(p) $$ (ensayos Bernoulli que toman el valor 1 con probabilidad $p$ y valor 0 con probabilidad $1-p$ ). Además, definamos el parámetro $$ \theta = 1_{\{p > 0\}} $$ y tratar de estimarlo. Naturalmente, basta con ver un solo punto de datos $X_i = 1$ saber que $\theta = 1$ . Toda la muestra puede contener un punto de datos de este tipo y permitirnos estimar $\theta$ sin ningún error. Por otro lado, cualquier muestra bootstrap puede no contener tal punto de datos y llevarnos a estimar erróneamente $\theta$ con 0 (aquí no adoptamos ningún marco bayesiano, sino el viejo método de máxima verosimilitud). Dicho de otro modo, $$ {\rm Bias}_{\rm\ bagging} = {\rm Prob(in\ a\ bootstrap\ sample\ X_{(1)} = ... = X_{(n)} = 0)} > 0, $$ condicionado a $\theta = 1$ .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X