Estoy tratando de desarrollar un modelo predictivo usando alta-dimensional de datos clínicos, incluyendo los valores de laboratorio. En el espacio de datos es escasa, con 5k de muestras y 200 variables. La idea es clasificar las variables mediante un método de selección de función (IG, RF, etc) y el uso de más alto rango de características para el desarrollo de un modelo predictivo.
Mientras que la selección de características va bien con un Naïve Bayes enfoque, ahora estoy pegando un problema en la aplicación de modelos de predicción debido a la falta de datos (NA) en mi espacio variable. Es allí cualquier algoritmo de aprendizaje de máquina que puede manejar con cuidado las muestras con los datos que faltan ?
Cualquiera de los ejemplos ?
Gracias por su ayuda de antemano!