19 votos

En Random Forest, ¿por qué se elige un subconjunto aleatorio de características a nivel de nodo en lugar de a nivel de árbol?

Mi pregunta: ¿Por qué el bosque aleatorio considera subconjuntos aleatorios de características para dividir a nivel de nodo dentro de cada árbol en lugar de a nivel de árbol ?

Antecedentes: Se trata de una cuestión histórica. Tin Kam Ho publicó este documento en la construcción de "bosques de decisión" mediante la selección aleatoria de un subconjunto de características para utilizar en el crecimiento de cada árbol en 1998. Varios años más tarde, en 2001, Leo Breiman publicó su seminal Random Forest papel en el que el subconjunto de características se selecciona aleatoriamente en cada nodo dentro de cada árbol, no en cada árbol. Aunque Breiman citó a Ho, no explicó específicamente el paso de la selección aleatoria de características a nivel de árbol a la selección aleatoria a nivel de nodo.

Me pregunto qué ha motivado específicamente este desarrollo. Parece que la selección del subconjunto de características a nivel de árbol seguiría cumpliendo la descorrelación deseada de los árboles.

Mi teoría: No he visto esto articulado en otra parte, pero parece que el método del subespacio aleatorio sería menos eficiente en términos de obtener estimaciones de la importancia de las características. Para obtener estimaciones de la importancia de las variables, para cada árbol, las características se permutan aleatoriamente una a una, y se registra el aumento de la clasificación errónea o el aumento del error para las observaciones fuera de la bolsa. Las variables para las que el aumento de la clasificación errónea o del error resultante de esta permutación aleatoria es elevado son las que tienen mayor importancia.

Si utilizamos el método del subespacio aleatorio, para cada árbol, sólo estamos considerando $m$ de la $p$ características. Pueden ser necesarios varios árboles para $p$ predictores ni una sola vez. Por otra parte, si consideramos un subconjunto diferente $m_i$ de la $p$ características en cada nodo consideraremos cada característica más veces después de menos árboles, lo que nos dará una estimación más robusta de la importancia de la característica.

Lo que he mirado hasta ahora: Hasta ahora, he leído el artículo de Breiman y el de Ho, y he realizado una amplia búsqueda en Internet para comparar los métodos sin encontrar una respuesta definitiva. Tenga en cuenta que un pregunta similar se preguntó antes. Esta pregunta va un poco más allá al incluir mi especulación/trabajo hacia una posible solución. Me interesaría recibir respuestas, citas pertinentes o estudios de simulación que comparen ambos enfoques. Si no hay ninguna, pienso hacer mi propia simulación comparando los dos métodos.

4voto

and0rsk Puntos 148

Supongamos que tenemos 10 características f1, f2, ..., f9, f10, entonces cuando tomamos un subconjunto supongamos f1, f3, f4, f8 de características a nivel del árbol mismo, entonces construimos todo el árbol tomando estas 4 características en consideración.

Calculamos la entropía, comparamos sólo estas 4 características en cada nodo y tomamos aquella característica que produzca la máxima entropía. Esto no es muy útil, ya que estamos restringiendo nuestro aprendizaje del árbol a sólo esas 4 características. Contrariamente a esto, cuando tomamos un subconjunto de características, digamos f1, f8, f9 en el primer nodo, calculamos la entropía y la comparamos entre estas 3 características y elegimos la que da el máximo valor. En lugar de seguir haciendo crecer el árbol con las mismas características, elegimos otro subconjunto de características, digamos f4, f7, f2 y hacemos la división basándonos en estas características. Supongamos que f8 se selecciona en el primer nodo y f2 en el segundo. El modelo es capaz de aprender la relación entre estos dos, lo que no sería posible si hay alguna otra característica que da la máxima entropía que f2 después de f8 ha sido seleccionado como el nodo raíz.

De este modo, el modelo puede aprender la relación entre diferentes características de una forma más diversificada. Este enfoque permitirá explorar una serie de características en un único árbol y, de este modo, se conservan las relaciones entre ellas. Espero que lo hayas entendido :)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X