26 votos

algoritmos de aprendizaje automático para manejar los datos faltantes

Estoy tratando de desarrollar un modelo predictivo usando alta-dimensional de datos clínicos, incluyendo los valores de laboratorio. En el espacio de datos es escasa, con 5k de muestras y 200 variables. La idea es clasificar las variables mediante un método de selección de función (IG, RF, etc) y el uso de más alto rango de características para el desarrollo de un modelo predictivo.

Mientras que la selección de características va bien con un Naïve Bayes enfoque, ahora estoy pegando un problema en la aplicación de modelos de predicción debido a la falta de datos (NA) en mi espacio variable. Es allí cualquier algoritmo de aprendizaje de máquina que puede manejar con cuidado las muestras con los datos que faltan ?

Cualquiera de los ejemplos ?

Gracias por su ayuda de antemano!

16voto

jpmuc Puntos 4817

Depende del modelo que se utilice. Si usted está utilizando algún modelo generativo, entonces hay una serie de principios para tratar con los valores perdidos (). Por ejemplo, en modelos como el Naive Bayes o de Gauss Procesos que integraría los faltantes en las variables, y elegir la mejor opción con el resto de las variables.

Para discriminativo de los modelos es más elaborado, ya que no es posible. Hay una serie de enfoques. Gharamani y Jordania describir un enfoque basado en principios, donde los valores perdidos son tratados como variables ocultas, y una variante del algoritmo EM es utilizado para la estimación de ellos. De manera similar, Smola et al. describir una variante del algoritmo SVM que explícitamente aborda el problema.

Tenga en cuenta que se recomienda a menudo para sustituir los valores perdidos por el valor de la media de la variable. Esto es problemático, como se describe en el primer papel. A veces, me han llegado a través de los documentos que hacen de regresión sobre las variables a estimar los valores faltantes, pero no puedo decir si se aplica a su caso.

3voto

lvmisooners Puntos 328

Trate de imputación utilizando vecinos más cercanos para deshacerse de los datos que faltan.

Además, el paquete Caret tiene interfaces a una amplia variedad de algoritmos y todos ellos vienen con predecir métodos en R que pueden utilizarse para predecir los datos nuevos. Las mediciones de rendimiento también pueden estimarse utilizando k veces validación cruzada utilizando el mismo paquete.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X