Estoy utilizando un método basado en árboles (específicamente, un bosque aleatorio) para modelar la calidad de las puestas de sol basado en mediciones meteorológicas. Una característica disponible es la altura de las nubes. Cuando no hay nubes, los datos se establecen en 99999. Tengo la impresión de que mantener los valores en 99999 (o establecerlos en 0 o -999) sesgará las predicciones, ya que un árbol considerará los 99999 como valores físicos reales cuando realmente deberían ser efectivamente ignorados. He considerado agregar una variable ficticia para indicar si hay nubes o no, pero si quiero incluir la altura de las nubes, que creo que podría ser relevante para la calidad de las puestas de sol, siento que necesitaré hacer algo con los 99999. ¿Existe una forma aceptada de manejar este tipo de datos faltantes intencionalmente con métodos basados en árboles?
He encontrado algunas preguntas relacionadas con este problema, pero ninguna tiene una solución para mi problema:
Método de variable ficticia para datos faltantes en modelos predictivos de ML
Cómo lidiar con datos faltantes intencionalmente
Cómo debería definir los valores faltantes debido a preguntas omitidas en SPSS