Mi situación:
- pequeño tamaño de la muestra: 116
- binaria variable de resultado
- larga lista de variables explicativas: 44
- las variables explicativas no provienen de la parte superior de mi cabeza; su elección se basó en la literatura.
- la mayoría de los casos en la muestra y la mayoría de las variables tienen valores perdidos.
Enfoque para la selección de características seleccionadas: LAZO
R glmnet paquete no me deja ejecutar el glmnet rutina, al parecer, debido a la existencia de valores perdidos en mi conjunto de datos. Parece ser que existen diversos métodos para el manejo de los datos faltantes, por lo que me gustaría saber:
- Hace LAZO imponer cualquier restricción en términos del método de imputación que puedo utilizar?
- ¿Cuál sería la mejor apuesta para el método de imputación? Idealmente, necesito un método que podría ejecutar en el programa SPSS (preferiblemente) o R.
UPDATE1: Se hizo evidente a partir de algunas de las respuestas que le he de hacer lidiar con más problemas básicos antes de considerar métodos de imputación. Me gustaría añadir aquí nuevas preguntas con respecto a eso. En la respuesta, lo que sugiere que la codificación como el valor de la constante y la creación de una nueva variable con el fin de lidiar con "no aplicable" los valores y el uso de grupo de lazo:
- Diría usted que si yo uso el grupo de LAZO, me gustaría ser capaz de utilizar el enfoque sugerido para la continua predictores también a los predictores categóricos? Si es así, supongo que sería el equivalente a la creación de una nueva categoría - tengo dudas de que esto puede introducir un sesgo.
- ¿Alguien sabe si R glmnet paquete es compatible con el grupo de LAZO? Si no, alguien podría sugerir otro que hace que en combinación con la regresión logística? Varias opciones de mencionar grupo de LAZO se puede encontrar en CRAN repositorio, cualquier sugerencia de que el más adecuado para mi caso? Tal vez SGL?
Este es un seguimiento a una pregunta anterior de la mina (Cómo para seleccionar un subconjunto de variables de la original de mi larga lista en orden a realizar el análisis de regresión logística?).
OBS: no soy un estadístico.