2 votos

Manejo de datos faltantes intencionalmente con métodos basados en árboles

Estoy utilizando un método basado en árboles (específicamente, un bosque aleatorio) para modelar la calidad de las puestas de sol basado en mediciones meteorológicas. Una característica disponible es la altura de las nubes. Cuando no hay nubes, los datos se establecen en 99999. Tengo la impresión de que mantener los valores en 99999 (o establecerlos en 0 o -999) sesgará las predicciones, ya que un árbol considerará los 99999 como valores físicos reales cuando realmente deberían ser efectivamente ignorados. He considerado agregar una variable ficticia para indicar si hay nubes o no, pero si quiero incluir la altura de las nubes, que creo que podría ser relevante para la calidad de las puestas de sol, siento que necesitaré hacer algo con los 99999. ¿Existe una forma aceptada de manejar este tipo de datos faltantes intencionalmente con métodos basados en árboles?

He encontrado algunas preguntas relacionadas con este problema, pero ninguna tiene una solución para mi problema:

Método de variable ficticia para datos faltantes en modelos predictivos de ML

Cómo lidiar con datos faltantes intencionalmente

Cómo debería definir los valores faltantes debido a preguntas omitidas en SPSS

1voto

Rob Van Dam Puntos 5073

Muchas implementaciones de modelos de árboles tratan los valores faltantes por separado: eligen una división óptima entre los valores no faltantes, y luego deciden por qué camino deben ir los valores faltantes. Esto da la mayor flexibilidad, que puede ser o no la mejor, dependiendo del equilibrio sesgo-varianza en el resto de su configuración.

También tenga en cuenta que los modelos de árboles (excepto los árboles extremadamente randomizados) no tienen en cuenta la escala de las variables en absoluto. Lo único que importa es que 99999 es mayor que todos los demás valores para la característica. Por lo tanto, usar 99999 o -999 simplemente garantiza que se tratarán de manera similar a otros valores grandes o pequeños respectivamente, en lugar de como lo harían los NA. En su contexto, mantener 99999 puede tener sentido: ¿las nubes lo suficientemente altas realmente obstaculizan una puesta de sol?

Ver también:
(DS.SE) ¿Cuál es la diferencia entre rellenar valores faltantes con 0 u otro término constante como -999?
¿Cómo lidian los algoritmos de aprendizaje de árboles de decisión con valores faltantes (bajo el capó)?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X