Processing math: 100%

12 votos

¿NAs de manejo en una regresión? ¿Banderas de datos?

Estoy ahora trabajando con un gran conjunto de datos con alrededor de 30 diferentes variables. Casi todos mis filas tienen un valor perdido en al menos una de las filas. Me gustaría correr una regresión con varias de las variables. Desde mi comprensión de R (o cualquier otro estadísticas de programa) va a soltar las observaciones que tenga al menos un NA de las variables. Es allí una manera de detener a R de hacer eso? Me refiero a que es posible que R ignorar los valores que faltan, pero todavía ejecutar la regresión sobre el resto?

Uno de mis profesores me dijo una vez que es posible utilizar los datos de "banderas" para crear muñecos que son igual a 1 cuando el valor es NA y cero en caso contrario. Me gustaría crear los indicadores para cada variable con el NAs. Y luego me puse el NAs a cero, después de esto me puede incluir los indicadores en la regresión. Eso es lo que me dijeron que si recuerdo correctamente. Yo ahora quisiera google este procedimiento pero no pude encontrar nada. Yo este un enfoque de fiar? ¿Existen riesgos u otros problemas?

Si es así, hay otra solución? Yo sé acerca de la imputación y de la interpolación, que puedo usar para algunos de mis variables, pero no para todos.

Sólo para hacer que claro, yo no tengo ninguna NAs en mi variable dependiente.

10voto

jasonmray Puntos 1303

La "marcar método"—a menudo llamado el "dummy variable método" o "variable de indicador método"—se utiliza principalmente para codificar los predictores con no aplicable valores. Puede ser utilizado para codificar los predictores con valores perdidos; cuando usted está interesado en la realización de predicciones para los nuevos conjuntos de datos en lugar de inferencias acerca de los parámetros, y cuando la missingness mecanismo se presume será el mismo en las muestras para el que estás haciendo predicciones.

El problema es que el ajuste de un modelo diferente en el que el que no faltan las pendientes no equivalen a la "verdadera" pistas en un modelo en el que todos los predictores son los que no faltan. Ver, por ejemplo, Jones (1996), "indicadores y Métodos de Estratificación por Falta de Variables Explicativas en la Regresión Lineal Múltiple", JASA, 91, 433. (Una excepción es en los estudios experimentales en los que los predictores son ortogonales por diseño.)

Tenga en cuenta que usted puede establecer los valores que faltan para un número arbitrario, no sólo a cero, por máxima verosimilitud de los procedimientos.

† Supongamos que el modelo de interés es

η=β0+β1x1+β2x2 donde η es el predictor lineal. Ahora se introducen x3 como indicador de missingness en x2: el modelo se convierte en

η=β0+β1x1+β2x2+β3x3

Al x2 no es falta establezca x30: η=β0+β1x1+β2x2

Al x2 falta establezca x3 a 1 & x2 a una constante arbitraria c: η=β0+β1x1+β2c+β3

Claramente al x2 falta, la pendiente de x1 ya no es condicional en x2; total β1 es un promedio de los condicionales y marginales de las laderas. En general β1β1.

0voto

Chris Puntos 170

Yo te aviso en contra de la sustitución de desaparecidos valor con valores arbitrarios como 1, 0, la media de la característica, etc. Faltan datos y no es adecuado para el relleno en forma arbitraria.

El enfoque que generalmente funciona muy bien es para examinar sus características. Es probable que algunas de sus características contienen la mayor parte de los datos que faltan. Si este es el caso, la caída de ellos. Aunque suele ser agradable tener más características, si los datos está en gran medida ausente de ellos, no agregar mucho valor, de todos modos. Después de haber caído las características con la mayoría de los valores perdidos, usted puede ahora colocar las filas que contienen el resto de los valores que faltan. Normalmente, esto te dejará con un suficiente tamaño de la muestra. Si no, considere la posibilidad de técnicas de imputación.

0voto

Dick Brouwer Puntos 126

No hay manera de "ignorar" los datos faltantes en un procedimiento de regresión. Puede imputar los datos faltantes y hay muchos artículos de referencia sobre el tema en Crossvalidated. El método que usted describe no coincide con un procedimiento que conozco.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X