Tengo una pregunta conceptual.
En el aprendizaje no supervisado, cuando no tengo etiquetas. El modelo de detección de anomalías (bosques de aislamiento, autocodificadores, métodos basados en la distancia, etc.), debería ajustarse a los datos de entrenamiento y luego a los de prueba (división de entrenamiento y prueba), al igual que una técnica supervisada común de creación de pliegos de datos?
Ayuda de muchas maneras durante el aprendizaje supervisado para reducir el sobreajuste.
¿O no importa en el aprendizaje no supervisado y puedo entrenar en todo mi conjunto de datos disponible? Ya que no hay etiquetas o medidas para comprobar la precisión del ajuste.