La idea básica es hacer una sustitución rápida de los datos que faltan y, a continuación, de forma iterativa mejorar la falta de imputación, el uso de proximidad. Para trabajar con etiqueta de datos, simplemente replicar los datos con todas las etiquetas y, a continuación, tratar como datos etiquetados.
La fracción de los árboles para que un par de observaciones compartir un terminal de nodo proporciona la matriz de proximidades, y lo utiliza de forma explícita la clase de la etiqueta.
Conjunto de entrenamiento:
- Reemplazar los valores perdidos por el valor promedio.
Repita hasta que esté satisfecho:
una. Utilizando los valores imputados calculado hasta ahora, tren a un bosque aleatorio.
b. Calcular la matriz de proximidades.
c. El uso de la proximidad como el peso, la imputación de valores perdidos como la media ponderada de los no-valores que faltan.
Conjunto de pruebas:
- Si las etiquetas de existir, el uso de la imputación derivada de los datos de prueba.
- Si los datos no etiquetados, replicar el conjunto de pruebas con una copia para cada clase de etiqueta y proceder igual que con la etiqueta de datos.
Aquí, la media (ponderada) se refiere a (ponderado) de la mediana para las variables numéricas y (ponderado) de modo para las variables categóricas. 4-6 iteraciones se recomienda en las referencias.
R documentación (pdf), Breiman del manual de v4.0 (pdf), Breiman del RF de la página