He vuelto a interesarme por el tratamiento de los datos de covarianza que faltan en MCO utilizando el estimador de la matriz de covarianza por pares, es decir, utilizando todos los pares de variables disponibles para calcular las varianzas y covarianzas. Esto se debe a un artículo reciente: http://heather.cs.ucdavis.edu/Missing.pdf . El enfoque de "utilizar todos los pares disponibles" es mucho más rápido que la imputación múltiple en conjuntos de datos enormes.
Existen varias permutaciones posibles a la hora de decidir cómo realizar los cálculos en función de
- si los datos están centrados y el intercepto se estima a posteriori (como se hace en el documento anterior) frente a la estimación del intercepto simultáneamente con todas las pendientes (que es más fácil de tratar)
- si utilizar $n-1$ en demoninadores en lugar de $n$
Para calcular la ponderación ascendente, prefiero utilizar los datos brutos. $X'X$ y $X'Y$ a continuación, utilizando la norma $(X'X)^{-1}X'Y$ donde $X$ incluye una columna de $1$ s para la interceptación. Este enfoque es más general y podría utilizarse en otros modelos como el logístico.
¿Alguien conoce alguna razón por la que se prefiera un planteamiento a los otros planteamientos de todas las parejas? En otras palabras, ¿cuáles son los detalles del mejor método de todas las parejas?