6 votos

Hacer de correlación y/o derivados de los campos que requieren una consideración especial cuando se utiliza Bosque Aleatorio?

NOTA: mi limitada experiencia con Bosque Aleatorio mediante R.

Hay algunas consideraciones especiales cuando se utiliza Bosque Aleatorio (en R) que debo tener en cuenta con respecto a la incidencia de correlación de las variables o variables derivadas de otras variables del conjunto de datos?

Por ejemplo, si estoy tratando de predecir quién podría dejar a nuestra empresa para ir a trabajar para otra empresa podría incluir variables tales como los que se enumeran a continuación. ¿Es necesario ser cauteloso con la mezcla de estas variables sobre todo porque, por ejemplo con la variable Edad, todos se basan en la misma variable: fecha de nacimiento? O acumulativo de campos: Edad rollos de hasta "grupos de Edad" y "grupos de Edad" rollos "de la Carrera de la Edad de la Cohorte"?

Por lo que yo entiendo Bosque Aleatorio tiene la función de selección, pero no está seguro de lo que dice acerca de la correlación de los campos o campos derivados de otros campos como el de arriba acumulativo de ejemplo.

  • Fecha de NACIMIENTO BASADO en VARIABLES (todas las variables categóricas excepto "año de Nacimiento" y la Edad)

    1. Edad
    2. Cohortes de edad (es decir, 20-30, 30-40 años de edad, etc)
    3. La edad de la Carrera de la Cohorte (similar a la anterior pero más amplio bin i.e ("Early (Edad <35)", "Mid (Edad 35-49", etc)
    4. Año de nacimiento (probablemente no en R, ya que más de 32 categorías)
    5. Generación (es decir, los Boomers, la Generación X, Y, etc)
  • Fecha de contratación BASADOS en VARIABLES

    1. Años de Servicio
    2. Años de servicio chorts

O incluso, por ejemplo la edad y el servicio son de correlación (r~.57).?

5voto

mat_geek Puntos 1367

Árboles de clasificación y regresión no tienen el mismo tipo de multicolinealidad problemas que tiene en la regresión lineal múltiple. Divisiones se basan en una mejor división de los criterios de la que usted tiene opciones con el índice de Gini siendo el más usado. En realidad yo creo que es beneficioso para tener una alta correlación de las variables disponibles para la selección en la construcción del modelo. Esto hace posible el uso de buen sustituto divide cuando ciertas variables utilizadas en el árbol construido faltan para un punto particular de datos que desea predecir el resultado en el caso de la regresión o para la clasificación de un nuevo caso de unos covariable falta.

Ahora el Bosque Aleatorio crea un conjunto de árboles y si las variables están altamente correlacionadas pueden aparecer en un árbol mientras una variable altamente correlacionada con ella puede estar ausente en ese árbol en particular, pero la situación se puede revertir para que otro árbol. Puesto que usted está haciendo un promedio de conjunto y bootstrap embolsado creo que incluso hay menos de un problema con una alta correlación de las variables en el Bosque Aleatorio que no sería justo que usa el CARRO.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X