1 votos

MissForest para SurveyData

Hola compañero científico de datos,

Actualmente estoy leyendo el artículo de Stekhoven & Brühlmann sobre MissForest. Me preguntaba cómo tratar las variables que están restringidas por el conocimiento del dominio. Por ejemplo, ninguna mujer puede no haber tenido cáncer de próstata en el pasado, por lo que se buscan valores perdidos para este elemento. ¿Debería excluir dichas variables (si se desean/introducen valores perdidos) de la imputación de MissForest?

Si es así, ¿cómo puedo combinar estas variables con los conjuntos de datos imputados después?

Espero que esto sea lo suficientemente específico. Gracias de antemano

0voto

Bill Puntos 16

Por lo general, es mejor aplicar primero reglas lógicas para rellenar algunos espacios en blanco, seguidas eventualmente de una imputación algorítmica.

Tomemos, por ejemplo, un conjunto de datos sobre las características de las casas. Una de las columnas es "piscina", con un 1 (sí) o un 0 (no). La imputación algorítmica establecería todos los faltantes en "1", destruyendo toda la información sobre tener o no una piscina.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X