1 votos

Ingeniería de características para valores faltantes en datos de prueba y entrenamiento juntos o por separado

Observo 2 estilos de ingeniería de características. Por lo tanto, mi pregunta es para confirmar lo que creo que es la mejor práctica mediante un ejemplo como el siguiente:

  • Si necesitamos completar valores faltantes (en lugar de descartar la observación),

    • entonces, en el caso de completar la edad faltante
      • haría esto en todo el conjunto de datos antes de dividirlo en tren y prueba, etc.
  • Sin embargo, veo ejemplos de personas que hacen esto individualmente en los datos de prueba y de entrenamiento. Seguramente esto es incorrecto.

2voto

Dave Puntos 76

La razón para usar una validación o conjunto de pruebas fuera de muestra es imitar la aplicación real de tu modelo de aprendizaje automático: liberándolo en la vida real. En lo que a ti respecta, una vez que divides los datos, solo existe el conjunto de datos de entrenamiento.

Cualquier método que utilices para completar valores faltantes o crear características en los datos de entrenamiento, hazlo también para las observaciones fuera de muestra.

Realmente ni siquiera piensas en los datos fuera de muestra como un conjunto. Aunque no lo programarás de esta manera, piensa en hacer predicciones secuenciales. Tienes este increíble modelo de aprendizaje automático, y un cliente llega a ti con nuevos datos, desesperado por saber tu predicción. "Doc, ¿qué piensas tú?" Haz tu predicción, utilizando lo que has aprendido en los datos de entrenamiento. Luego pasa a la siguiente observación que trae el próximo cliente.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X