Observo 2 estilos de ingeniería de características. Por lo tanto, mi pregunta es para confirmar lo que creo que es la mejor práctica mediante un ejemplo como el siguiente:
-
Si necesitamos completar valores faltantes (en lugar de descartar la observación),
- entonces, en el caso de completar la edad faltante
- haría esto en todo el conjunto de datos antes de dividirlo en tren y prueba, etc.
- entonces, en el caso de completar la edad faltante
- Sin embargo, veo ejemplos de personas que hacen esto individualmente en los datos de prueba y de entrenamiento. Seguramente esto es incorrecto.