Estoy ahora trabajando con un gran conjunto de datos con alrededor de 30 diferentes variables. Casi todos mis filas tienen un valor perdido en al menos una de las filas. Me gustaría correr una regresión con varias de las variables. Desde mi comprensión de R (o cualquier otro estadísticas de programa) va a soltar las observaciones que tenga al menos un NA de las variables. Es allí una manera de detener a R de hacer eso? Me refiero a que es posible que R ignorar los valores que faltan, pero todavía ejecutar la regresión sobre el resto?
Uno de mis profesores me dijo una vez que es posible utilizar los datos de "banderas" para crear muñecos que son igual a 1 cuando el valor es NA y cero en caso contrario. Me gustaría crear los indicadores para cada variable con el NAs. Y luego me puse el NAs a cero, después de esto me puede incluir los indicadores en la regresión. Eso es lo que me dijeron que si recuerdo correctamente. Yo ahora quisiera google este procedimiento pero no pude encontrar nada. Yo este un enfoque de fiar? ¿Existen riesgos u otros problemas?
Si es así, hay otra solución? Yo sé acerca de la imputación y de la interpolación, que puedo usar para algunos de mis variables, pero no para todos.
Sólo para hacer que claro, yo no tengo ninguna NAs en mi variable dependiente.