Tengo un conjunto de datos (50000x50) de información de clientes potenciales y estoy intentando comprender qué características son las más predictivas para determinar si un cliente potencial se convertirá en un cliente comprador. El conjunto de datos incluye filas tanto de clientes potenciales como de clientes reales, e incluye una columna variable y titulada 'did.customer.purchase' que es binaria (1,0) e indica si la fila es un cliente comprador o no.
Me gustaría ajustar una variedad de modelos de aprendizaje automático en R (SVM y regresión logística para empezar), y utilizar las herramientas / gráficos de importancia de variables incorporadas en R para ayudar a comprender la importancia de las variables en la predicción de la columna 'did.customer.purchase'. Sin embargo, mi conjunto de datos está lleno de valores NA. No hay ni una sola fila con menos de 3 valores NA, y en conjunto el conjunto de datos tiene ~50% de valores NA. Ya he depurado bastante los datos (empecé con 100000x200), y creo que es útil conservar cada una de las 50 columnas restantes.
La mayoría de los paquetes de R ML tienen un parámetro opcional na.action, con una variedad de opciones que incluyen na.omit, na.pass, etc. Si establezco el parámetro en na.pass, recibo un error si hay NAs en mis datos. Si establezco el parámetro en na.omit, descarto todas las observaciones y no se ajusta ningún modelo.
¿Cómo puedo hacer importancia variable con un montón de NAs? ¿Hay alguna forma mejor?
Gracias.