6 votos

Tratar con los datos faltantes en el conjunto de predicción solamente

Tengo un problema de regresión donde las variables independientes son todos los factores (categórica). He estado buscando en la literatura sobre los datos que faltan, y hasta el momento todo parece preocupado con la falta de datos de entrenamiento. Me preguntaba si hay una forma estándar de tratar con los datos que faltan en la predicción de conjunto. Es decir, usted tiene toda la información que necesitas para entrenar, pero entonces usted necesita para ser capaz de hacer una predicción con sólo datos parciales. Esto debe haber sido un problema estudiado.

Mi idea inicial es la utilización de un promedio de las maquetas de variables codificadas, de acuerdo a lo comunes que son. Como un ejemplo rápido, digamos que tenemos tres niveles de factor ficticio codificado como

level 1: [1 0]
level 2: [0 1]
level 3: [0 0]

Decir que el nivel de $i$ se produce fracción $f_i$ del tiempo en los datos de entrenamiento (por lo $\sum_i{f_i}=1$), y la regresión de los dos coeficientes de $\beta_1$$\beta_2$.

A continuación, la ausencia de un valor en este factor puede ser estimado como: $$ \beta_1*f_1 + \beta_2*f_2 + 0*f_3 $$ Pero dado que el "defecto" de la codificación de nivel son compartidos entre todos los factores, no estoy seguro de que estoy manejando nivel 3 correctamente en este caso.

4voto

Sean Hanley Puntos 2428

(Voy a dejar que alguien más la dirección de la estimación de los datos faltantes. Puede que desee directamente el modelo de la probabilidad de que la observación es que cada nivel del factor desconocido mediante el conocimiento de otras covariables de valores, y, posiblemente, fuera de la información, por ejemplo, priores, etc. Hay estrategias como las puntuaciones de la propensión de que usted podría ser capaz de utilizar para este tipo de cosas. Sin embargo, a primera vista, su enfoque parece razonable para mí.)

Uno nota es que yo no puedo decir a partir de su descripción si usted está ponderación por primas de frecuencias. Si es así, usted desea dividir estos por $N$ para obtener el marginal probabilidades en su lugar.

Tienes razón en que no manejo el nivel 3 correctamente. El esquema de codificación que se utiliza en su pregunta conjunto es conocido como nivel de referencia de la codificación. Para usar este método correctamente, usted necesita tener una intercepción (es decir, $\beta_0$), que estima la media de nivel 3. Sospecho que tiene tales, aunque no a la lista. En este caso, sólo tendría que añadir la de interceptar a su última ecuación. Que es: $$ \beta_0\!*\!f_3 + \beta_1\!*\!f_1 + \beta_2\!*\!f_2 $$ Tenga en cuenta que usted está multiplicando la intersección (que codifica el nivel de referencia) por la probabilidad marginal de que la observación es en realidad el nivel de referencia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X