Tengo un conjunto de datos x, y que estoy usando para construir un bosque al azar. Los datos x son un vector de valores que incluye algunos NAs. Así que uso rfImpute
para manejar los datos que faltan y crear un bosque aleatorio. Ahora tengo una nueva observación no vista x (con una NA) y quiero predecir y. ¿Cómo imputar el valor que falta para poder usar el bosque aleatorio que ya he crecido? El rfImpute
La función parece requerir x e y. Sólo tengo x para propósitos de predicción.
Mi pregunta es similar (pero diferente) a esta pregunta . Y por ejemplo, puedo usar el mismo conjunto de datos del iris. Si he interpretado correctamente el código en la respuesta a la pregunta a la que me refiero, el código iris.na[148, , drop=FALSE]
en la declaración iris.na2 = rbind(iris.imputed, iris.na[148, , drop=FALSE])
representa los nuevos datos que incluyen la Species
(el valor Y). En mi problema no sabría el Species
-Quiero usar el bosque aleatorio para predecir eso. Tendría las 4 variables independientes, pero algunas podrían ser NA
para una fila determinada. Para continuar la analogía, imagina que tengo 3 de las 4 variables (falta una). Quiero imputar ese valor. Luego quiero predecir las especies que no conozco.
En respuesta al comentario de Gung de que debería añadir una ilustración, permítanme ponerla en términos del conjunto de datos del iris. Imagine que tengo los siguientes datos sobre una flor. Sé que es Sepal.Length
, Sepal.Width
, Petal.Length
pero no el Petal.Width
. Me gustaría imputar la Petal.Width
y luego usar esos 4 valores dentro de un modelo de RF para predecir la Species
.