Digamos que tengo un conjunto de datos con 1000 observaciones en 10 variables, la "a" a "J." tengo 1000 respuestas y medidas para cada una de las 8 primeras variables, a través de la "H", pero solo los primeros 500 observaciones para el "yo" no faltan, y sólo el último de 500 observaciones para "J" no faltan-no hay observaciones que he medidas de los últimos dos variables, I y J.
Por lo tanto, si tengo que calcular (pairwise) correlaciones, tengo una completa matriz de correlación, con sólo la correlación entre I y J que faltan. Digamos que quiero ejecutar un Análisis de Componentes Principales, o algún tipo de procedimiento de escalamiento en esta matriz de correlación.
Lo que creo que me gustaría hacer es:
- Generar de forma aleatoria (tal vez de algunos de distribución en [-1, 1], o tal vez a través de muestreo, a partir de los valores existentes en el resto de la matriz de correlación) un "inventó" la correlación entre la I y J.
- Puesto que en la matriz de correlación.
- Ejecución de la PCA en la matriz de correlación con esta inventado valor.
- Repita los pasos 1 - 3 de un número grande de veces.
- Evaluar los resultados colectivos de este gran número de Pca, mirando a la media y la varianza de las cargas, las puntuaciones, los autovalores, etc., basado en la "pseudo-bootstrap" de iteraciones.
Preguntas:
- Hay una manera mejor de manejar (a) valor faltante(s) en la matriz de correlación?
- ¿Hay algún precedente para la sustitución de estos (un) valor faltante(s) aleatoria inventado valores? Si es así, cómo se llama?
- Es esta relacionado con el bootstrap?
Muchas gracias, de antemano.
Editar: Pregunta 4. Es este un defendible enfoque de imputación?