Tengo un problema de regresión donde las variables independientes son todos los factores (categórica). He estado buscando en la literatura sobre los datos que faltan, y hasta el momento todo parece preocupado con la falta de datos de entrenamiento. Me preguntaba si hay una forma estándar de tratar con los datos que faltan en la predicción de conjunto. Es decir, usted tiene toda la información que necesitas para entrenar, pero entonces usted necesita para ser capaz de hacer una predicción con sólo datos parciales. Esto debe haber sido un problema estudiado.
Mi idea inicial es la utilización de un promedio de las maquetas de variables codificadas, de acuerdo a lo comunes que son. Como un ejemplo rápido, digamos que tenemos tres niveles de factor ficticio codificado como
level 1: [1 0]
level 2: [0 1]
level 3: [0 0]
Decir que el nivel de $i$ se produce fracción $f_i$ del tiempo en los datos de entrenamiento (por lo $\sum_i{f_i}=1$), y la regresión de los dos coeficientes de $\beta_1$$\beta_2$.
A continuación, la ausencia de un valor en este factor puede ser estimado como: $$ \beta_1*f_1 + \beta_2*f_2 + 0*f_3 $$ Pero dado que el "defecto" de la codificación de nivel son compartidos entre todos los factores, no estoy seguro de que estoy manejando nivel 3 correctamente en este caso.