Tengo una variable respuesta binaria estoy tratando de predecir el uso de Random Forest. Tengo un gran conjunto de datos de 150k filas, tengo alrededor de 200 variables independientes o características de uso para modelar el resultado.
Muchos de mis funciones son continuas cantidades numéricas, decir, tomando valores de 0 a 100, incluidos los valores decimales en el mismo. Sin embargo, en un 5% a 10% de los casos, habrá especial de los valores que indican alguna razón de por qué esta variable no fue poblada por la fila en cuestión, estos valores están codificados en el conjunto de datos como "-9", "-8", "-7" en la actualidad, a pesar de que son realmente las categóricas, no cantidades numéricas con relación a la medida de la mayor parte de los datos en la función.
Puede alguien con Bosque Aleatorio experiencia aconsejan cómo debo preparar estos datos para el uso en un ML contexto, específicamente con Bosque Aleatorio? Mi instinto es la de dividir las funciones que este es el caso en dos nueva característica, una con los valores numéricos, y NA de valores donde anteriormente existía un valor especial, y otra de las características con NAs para los casos donde el valor original se numéricos y cadenas para el especial de valores, codificación de este como un "factor" de la variable (estoy usando R). El problema obvio con este enfoque es que el Bosque Aleatorio no "sabe" que estas dos características están vinculadas, y no incluirá junto necesariamente cuando la construcción de los árboles. Tal vez esto no es un gran problema dado que los árboles son intencionalmente "débil estudiantes" que no trate de hacer todo por sí solo en un árbol.
Pensamientos en la misma característica de ingeniería problema para su uso en otros ML paradigmas comúnmente usado para la clasificación binaria son también valorados, ya que esto probablemente va a terminar en un conjunto solución.
Si es útil, estoy usando H2O para este trabajo.