7 votos

Precedente para el Bootstrap-como el procedimiento con el "inventado" datos?

Digamos que tengo un conjunto de datos con 1000 observaciones en 10 variables, la "a" a "J." tengo 1000 respuestas y medidas para cada una de las 8 primeras variables, a través de la "H", pero solo los primeros 500 observaciones para el "yo" no faltan, y sólo el último de 500 observaciones para "J" no faltan-no hay observaciones que he medidas de los últimos dos variables, I y J.

Por lo tanto, si tengo que calcular (pairwise) correlaciones, tengo una completa matriz de correlación, con sólo la correlación entre I y J que faltan. Digamos que quiero ejecutar un Análisis de Componentes Principales, o algún tipo de procedimiento de escalamiento en esta matriz de correlación.

Lo que creo que me gustaría hacer es:

  1. Generar de forma aleatoria (tal vez de algunos de distribución en [-1, 1], o tal vez a través de muestreo, a partir de los valores existentes en el resto de la matriz de correlación) un "inventó" la correlación entre la I y J.
  2. Puesto que en la matriz de correlación.
  3. Ejecución de la PCA en la matriz de correlación con esta inventado valor.
  4. Repita los pasos 1 - 3 de un número grande de veces.
  5. Evaluar los resultados colectivos de este gran número de Pca, mirando a la media y la varianza de las cargas, las puntuaciones, los autovalores, etc., basado en la "pseudo-bootstrap" de iteraciones.

Preguntas:

  1. Hay una manera mejor de manejar (a) valor faltante(s) en la matriz de correlación?
  2. ¿Hay algún precedente para la sustitución de estos (un) valor faltante(s) aleatoria inventado valores? Si es así, cómo se llama?
  3. Es esta relacionado con el bootstrap?

Muchas gracias, de antemano.

Editar: Pregunta 4. Es este un defendible enfoque de imputación?

5voto

ESRogs Puntos 1381
  1. No sé.
  2. Lo que ha demostrado es un legítimo de simulación de Monte Carlo
  3. Bootstrap es también un método de Monte Carlo, pero es más sobre la estimación de las distribuciones.
  4. En general sí, sobre todo si la imputación está dando buenos resultados. En casos especiales, cuando la imputación de las grandes obras, no. En palabras simples, va a ser tan bueno como fuertemente que están convencidos de que no puede decir más acerca de la I&J correlación que es en -1..1.

5voto

christy Puntos 51
  1. Creo que necesitamos saber más acerca de la naturaleza de los datos para hacer recomendaciones sobre cómo lidiar con los valores que faltan. Una tarea exploratoria que salta para mí es observar el comportamiento de las variables de la a a la H cuando está presente, frente a a la H, J está presente. ¿Hay algo interesante a tener en cuenta para su posterior modelado? En lugar de remuestreo una estadística descriptiva, como la correlación, que yo considero un remuestreo de los datos en sí. Por ejemplo, podría utilizar el bootstrap para crear 500 nuevos (I,J) pares basada en los 500 valores que realmente tienen para estas variables. Pero, de nuevo, el trabajo exploratorio puede informar a un remuestreo régimen más allá de un "ingenuo", IID enfoque.

  2. En general, como otros han señalado, rellenar los datos que faltan va por la "imputación" y existen diferentes técnicas, dependiendo del contexto. Por ejemplo, en una configuración que yo podría simplemente utilizar un valor de la mediana, o una spline con la forma, pero si falta un punto de datos en una serie de tiempo se me puede imputar con un valor generado a partir de un ARMA de series de tiempo modelo.

  3. Su descritos solución sería la de "bootstrapping" si aumenta a partir de los datos observados. Creo que de Monte Carlo como cualquier método que utiliza el muestreo probabilístico de datos como entrada en un cálculo. Cuando el muestreo es de un no-paramétrico paramétrico o de distribución que se utiliza para modelar cómo los datos se generaron, todavía me llaman de Monte Carlo. Pero, cuando el muestreo se realiza a partir de una distribución empírica (es decir, los datos observados en sí, no es un modelo de los datos de proceso de generación) yo lo llamo el "bootstrapping".

5voto

Eric Davis Puntos 1542

Un enfoque alternativo sería culpa de la falta de datos raw utilizando una falta de datos procedimiento de sustitución. A continuación, puede ejecutar el PCA en la matriz de correlación que resultó de la imputada conjunto de datos (ver también varios de imputación).

Aquí hay un par de enlaces sobre la falta de imputación de datos en R:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X