NOTA: mi limitada experiencia con Bosque Aleatorio mediante R.
Hay algunas consideraciones especiales cuando se utiliza Bosque Aleatorio (en R) que debo tener en cuenta con respecto a la incidencia de correlación de las variables o variables derivadas de otras variables del conjunto de datos?
Por ejemplo, si estoy tratando de predecir quién podría dejar a nuestra empresa para ir a trabajar para otra empresa podría incluir variables tales como los que se enumeran a continuación. ¿Es necesario ser cauteloso con la mezcla de estas variables sobre todo porque, por ejemplo con la variable Edad, todos se basan en la misma variable: fecha de nacimiento? O acumulativo de campos: Edad rollos de hasta "grupos de Edad" y "grupos de Edad" rollos "de la Carrera de la Edad de la Cohorte"?
Por lo que yo entiendo Bosque Aleatorio tiene la función de selección, pero no está seguro de lo que dice acerca de la correlación de los campos o campos derivados de otros campos como el de arriba acumulativo de ejemplo.
Fecha de NACIMIENTO BASADO en VARIABLES (todas las variables categóricas excepto "año de Nacimiento" y la Edad)
- Edad
- Cohortes de edad (es decir, 20-30, 30-40 años de edad, etc)
- La edad de la Carrera de la Cohorte (similar a la anterior pero más amplio bin i.e ("Early (Edad <35)", "Mid (Edad 35-49", etc)
- Año de nacimiento (probablemente no en R, ya que más de 32 categorías)
- Generación (es decir, los Boomers, la Generación X, Y, etc)
Fecha de contratación BASADOS en VARIABLES
- Años de Servicio
- Años de servicio chorts
O incluso, por ejemplo la edad y el servicio son de correlación (r~.57).?