2 votos

Variable Importancia para conjunto de datos dispersos en R, toneladas de valores NA

Tengo un conjunto de datos (50000x50) de información de clientes potenciales y estoy intentando comprender qué características son las más predictivas para determinar si un cliente potencial se convertirá en un cliente comprador. El conjunto de datos incluye filas tanto de clientes potenciales como de clientes reales, e incluye una columna variable y titulada 'did.customer.purchase' que es binaria (1,0) e indica si la fila es un cliente comprador o no.

Me gustaría ajustar una variedad de modelos de aprendizaje automático en R (SVM y regresión logística para empezar), y utilizar las herramientas / gráficos de importancia de variables incorporadas en R para ayudar a comprender la importancia de las variables en la predicción de la columna 'did.customer.purchase'. Sin embargo, mi conjunto de datos está lleno de valores NA. No hay ni una sola fila con menos de 3 valores NA, y en conjunto el conjunto de datos tiene ~50% de valores NA. Ya he depurado bastante los datos (empecé con 100000x200), y creo que es útil conservar cada una de las 50 columnas restantes.

La mayoría de los paquetes de R ML tienen un parámetro opcional na.action, con una variedad de opciones que incluyen na.omit, na.pass, etc. Si establezco el parámetro en na.pass, recibo un error si hay NAs en mis datos. Si establezco el parámetro en na.omit, descarto todas las observaciones y no se ajusta ningún modelo.

¿Cómo puedo hacer importancia variable con un montón de NAs? ¿Hay alguna forma mejor?

Gracias.

1voto

Sahadeo Padhye Puntos 41

Hay un par de enfoques que se pueden utilizar aquí:

  • Puede utilizar NA como nuevo valor categórico.
  • Puede aplicar el clasificador bayesiano ingenuo y para cada variable utilizar sólo los datos pertinentes.
  • Si considera la imputación de los datos que faltan, debe evaluar la importancia de las características después de esta imputación.

Algunos enlaces:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X