Estoy trabajando con datos de seguros en los que un cliente tiene un campo llamado customer_no_dependent
(número de dependiente del cliente). Su salida es una variable significativa( sólo que tiene $p<0.0001$ ).
Esta variable tiene casi un 20% de valores perdidos. Para la imputación, pensé en determinar indicadores indirectos para el número de personas a cargo. Probé con la edad (pensando que una persona de más edad podría tener más dependientes). También lo correlacioné con el importe de la prima para pensar que una persona que tiene más dependientes podría tener menos ingresos disponibles. Así que el pago de una prima baja podría estar significando más dependientes. Entiendo que una variable demográfica no se puede sacar totalmente de esa lógica.
Ahora bien, si alguien entra en detalles, puede demostrar que mi imputación dista mucho de ser perfecta. ¿Qué debo hacer en esa situación? ¿Suprimir ese 20% sería una solución correcta? El 20% para mis datos sería cerca de 2 lakh filas que es gran cantidad de información..
Lo sé, esta pregunta puede tener muchas respuestas posibles. Agradecería cualquier indicación sobre cómo proceder.