Mi pregunta: ¿Por qué el bosque aleatorio considera subconjuntos aleatorios de características para dividir a nivel de nodo dentro de cada árbol en lugar de a nivel de árbol ?
Antecedentes: Se trata de una cuestión histórica. Tin Kam Ho publicó este documento en la construcción de "bosques de decisión" mediante la selección aleatoria de un subconjunto de características para utilizar en el crecimiento de cada árbol en 1998. Varios años más tarde, en 2001, Leo Breiman publicó su seminal Random Forest papel en el que el subconjunto de características se selecciona aleatoriamente en cada nodo dentro de cada árbol, no en cada árbol. Aunque Breiman citó a Ho, no explicó específicamente el paso de la selección aleatoria de características a nivel de árbol a la selección aleatoria a nivel de nodo.
Me pregunto qué ha motivado específicamente este desarrollo. Parece que la selección del subconjunto de características a nivel de árbol seguiría cumpliendo la descorrelación deseada de los árboles.
Mi teoría: No he visto esto articulado en otra parte, pero parece que el método del subespacio aleatorio sería menos eficiente en términos de obtener estimaciones de la importancia de las características. Para obtener estimaciones de la importancia de las variables, para cada árbol, las características se permutan aleatoriamente una a una, y se registra el aumento de la clasificación errónea o el aumento del error para las observaciones fuera de la bolsa. Las variables para las que el aumento de la clasificación errónea o del error resultante de esta permutación aleatoria es elevado son las que tienen mayor importancia.
Si utilizamos el método del subespacio aleatorio, para cada árbol, sólo estamos considerando $m$ de la $p$ características. Pueden ser necesarios varios árboles para $p$ predictores ni una sola vez. Por otra parte, si consideramos un subconjunto diferente $m_i$ de la $p$ características en cada nodo consideraremos cada característica más veces después de menos árboles, lo que nos dará una estimación más robusta de la importancia de la característica.
Lo que he mirado hasta ahora: Hasta ahora, he leído el artículo de Breiman y el de Ho, y he realizado una amplia búsqueda en Internet para comparar los métodos sin encontrar una respuesta definitiva. Tenga en cuenta que un pregunta similar se preguntó antes. Esta pregunta va un poco más allá al incluir mi especulación/trabajo hacia una posible solución. Me interesaría recibir respuestas, citas pertinentes o estudios de simulación que comparen ambos enfoques. Si no hay ninguna, pienso hacer mi propia simulación comparando los dos métodos.