10 votos

Imputación con bosques al azar

Tengo dos preguntas sobre el uso de random forest (específicamente randomForest en R) para el valor que falta de imputación (en el predictor de espacio).

1) ¿Cómo funciona el algoritmo de la imputación de trabajo, específicamente, cómo y por qué es la clase de la etiqueta necesaria para la imputación? es la matriz de proximidades que sirve para peso el valor promedio de la imputación de una falta de valor definida por separado por la clase?

2) Si la clase de la etiqueta es necesaria la imputación de valores perdidos - ¿cómo puede ser usado para imputar los valores perdidos para los nuevos datos que están tratando de predecir?

10voto

cohoz Puntos 276

La idea básica es hacer una sustitución rápida de los datos que faltan y, a continuación, de forma iterativa mejorar la falta de imputación, el uso de proximidad. Para trabajar con etiqueta de datos, simplemente replicar los datos con todas las etiquetas y, a continuación, tratar como datos etiquetados.

La fracción de los árboles para que un par de observaciones compartir un terminal de nodo proporciona la matriz de proximidades, y lo utiliza de forma explícita la clase de la etiqueta.

Conjunto de entrenamiento:

  1. Reemplazar los valores perdidos por el valor promedio.
  2. Repita hasta que esté satisfecho:

    una. Utilizando los valores imputados calculado hasta ahora, tren a un bosque aleatorio.

    b. Calcular la matriz de proximidades.

    c. El uso de la proximidad como el peso, la imputación de valores perdidos como la media ponderada de los no-valores que faltan.

Conjunto de pruebas:

  1. Si las etiquetas de existir, el uso de la imputación derivada de los datos de prueba.
  2. Si los datos no etiquetados, replicar el conjunto de pruebas con una copia para cada clase de etiqueta y proceder igual que con la etiqueta de datos.

Aquí, la media (ponderada) se refiere a (ponderado) de la mediana para las variables numéricas y (ponderado) de modo para las variables categóricas. 4-6 iteraciones se recomienda en las referencias.

R documentación (pdf), Breiman del manual de v4.0 (pdf), Breiman del RF de la página

4voto

mmesser314 Puntos 3875

He intentado usar el Bosque Aleatorio para la imputación múltiple en RATONES para manejar los datos que faltan en el análisis de supervivencia. He utilizado el "bootstrapping" para dar cuenta de la variabilidad del muestreo en la imputación de los modelos. He encontrado que el Bosque Aleatorio RATONES se desempeñaron mejor que paramétrico de los RATONES, cuando hubo interacción entre las variables predictoras que no fueron incluidos en el modelo de imputación.

El CALIBERrfimpute paquete proporciona una función de Bosque Aleatorio de la imputación en los RATONES:
http://cran.r-project.org/web/packages/CALIBERrfimpute/index.html

Este es un artículo que describe las pruebas del método en los datos simulados y reales epidemiológicas conjunto de datos:
http://dx.doi.org/10.1093/aje/kwt312

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X