La técnica que describes se llama imputación por regresiones secuenciales o imputación múltiple por ecuaciones encadenadas. La técnica fue iniciada por Raghunathan (2001) e implementada en un paquete de R que funciona bien, llamado mice
(van Buuren, 2012).
Un artículo de Schafer y Graham (2002) explica bien por qué la imputación de la media y la eliminación de la lista (lo que usted llama exclusión de líneas) no suelen ser buenas alternativas a las técnicas mencionadas. Principalmente, la imputación de la media no es condicional y, por tanto, puede sesgar las distribuciones imputadas hacia la media observada. También reducirá la varianza, entre otros impactos indeseables en la distribución imputada. Además, la supresión de la lista sólo funcionará si los datos faltan completamente al azar, como al lanzar una moneda. También aumentará el error de muestreo, ya que el tamaño de la muestra se reduce.
Los autores citados anteriormente suelen recomendar que se empiece por la variable con menos valores perdidos. Además, la técnica suele aplicarse de forma bayesiana (es decir, una extensión de su sugerencia). Las variables se visitan más veces en el procedimiento de imputación, no sólo una vez. En concreto, cada variable se completa con extracciones de su distribución predictiva posterior condicional, empezando por la variable que presenta menos valores perdidos. Una vez que se han completado todas las variables de un conjunto de datos, el algoritmo vuelve a empezar por la primera variable y se reitera hasta la convergencia. Los autores han demostrado que este algoritmo es de Gibbs, por lo que suele converger a la distribución multivariante correcta de las variables.
Por lo general, porque hay algunos supuestos no comprobables, en particular los datos no observados al azar (es decir, que el hecho de que los datos se observen o no depende sólo de los datos observados, y no de los valores no observados). Además, los procedimientos pueden ser parcialmente incompatibles, por lo que se les ha llamado PIGS (muestreador de Gibbs parcialmente incompatible).
En la práctica, la imputación múltiple bayesiana sigue siendo una buena forma de tratar los problemas de datos perdidos multivariantes no monótonos. Además, las extensiones no paramétricas, como el emparejamiento de medias predictivas, ayudan a relajar los supuestos de los modelos de regresión.
Raghunathan, T. E., Lepkowski, J., van Hoewyk, J., & Solenberger, P. (2001). A multivariate technique for multiply imputing missing values using a sequence of regression models. Survey Methodology, 27(1), 85-95.
Schafer, J. L., y Graham, J. W. (2002). Missing data: Nuestra visión del estado del arte. Psychological Methods, 7(2), 147-177. https://doi.org/10.1037/1082-989X.7.2.147
van Buuren, S. (2012). Flexible Imputation of Missing Data. Boca Ratón: CRC Press.
6 votos
El término de arte que está buscando es "imputación", de la cual la imputación múltiple es una opción popular y moderna. Tenga en cuenta que excluir las observaciones que faltan o sustituir las observaciones que faltan por la media puede sesgar gravemente los datos. Un lugar para empezar es Gelman et al, Análisis bayesiano de datos 3ª edición, "Capítulo 18: Modelos para datos perdidos".
0 votos
Gracias por el dato, buscaré con ese término y miraré el cap18. Borrar líneas puede sesgar mucho el modelo (si las faltas no son aleatorias, lo que es muy probable) y colocar la media puede poner una fuerte "carga inercial" alrededor de la media, dependiendo también de la exogeneidad de las faltas de datos. Mi gran pregunta es cuál es el mejor enfoque para manejar esto y mi sugerencia sería ejecutar pre-regresiones para completar los datos antes de la regresión principal (¿hay algún paquete que haga esto o debería crear uno?)
1 votos
La imputación múltiple moderna estima un modelo para los datos que faltan y los que no faltan, uno al lado del otro. El enfoque bayesiano de los datos que faltan consiste en estimar una distribución sobre los datos que faltan, condicionada por los datos observados y el modelo de falta. El software estadístico en python deja mucho que desear. Para los datos de TSCS,
Amelia II
en R es una opción sólida. O bien, puede hacer su propio trabajo utilizandostan
.