Tengo un gran conjunto de vectores de características que usaré para atacar un problema de clasificación binaria (usando scikit learn en Python). Antes de empezar a pensar en la imputación, me interesa tratar de determinar, a partir de las partes restantes de los datos, si los datos que faltan son "perdidos al azar" o perdidos no al azar.
¿Cuál es una forma sensata de abordar esta cuestión?
Resulta que una pregunta mejor es preguntar si los datos "faltan completamente al azar" o no. ¿Cuál es una forma sensata de hacerlo?