Ingeniería de características para valores faltantes en datos de prueba y entrenamiento juntos o por separado

Question

Ingeniería de características para valores faltantes en datos de prueba y entrenamiento juntos o por separado

Preguntado el 6 de Enero, 2021: Cuando se hizo la pregunta
276 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Observo 2 estilos de ingeniería de características. Por lo tanto, mi pregunta es para confirmar lo que creo que es la mejor práctica mediante un ejemplo como el siguiente:

Si necesitamos completar valores faltantes (en lugar de descartar la observación),
- entonces, en el caso de completar la edad faltante
  - haría esto en todo el conjunto de datos antes de dividirlo en tren y prueba, etc.
Sin embargo, veo ejemplos de personas que hacen esto individualmente en los datos de prueba y de entrenamiento. Seguramente esto es incorrecto.

Preguntado el 6 de Enero, 2021 por user113528

Answer 1

1 Respuestas

Answer 2

2voto

Dave Puntos 76

La razón para usar una validación o conjunto de pruebas fuera de muestra es imitar la aplicación real de tu modelo de aprendizaje automático: liberándolo en la vida real. En lo que a ti respecta, una vez que divides los datos, solo existe el conjunto de datos de entrenamiento.

Cualquier método que utilices para completar valores faltantes o crear características en los datos de entrenamiento, hazlo también para las observaciones fuera de muestra.

Realmente ni siquiera piensas en los datos fuera de muestra como un conjunto. Aunque no lo programarás de esta manera, piensa en hacer predicciones secuenciales. Tienes este increíble modelo de aprendizaje automático, y un cliente llega a ti con nuevos datos, desesperado por saber tu predicción. "Doc, ¿qué piensas tú?" Haz tu predicción, utilizando lo que has aprendido en los datos de entrenamiento. Luego pasa a la siguiente observación que trae el próximo cliente.

Respondido el 6 de Enero, 2021 por Dave (76 Puntos )

Ingeniería de características para valores faltantes en datos de prueba y entrenamiento juntos o por separado

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Ingeniería de características para valores faltantes en datos de prueba y entrenamiento juntos o por separado

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: