4 votos

Aprendizaje no supervisado: División de prueba del tren

Tengo una pregunta conceptual.

En el aprendizaje no supervisado, cuando no tengo etiquetas. El modelo de detección de anomalías (bosques de aislamiento, autocodificadores, métodos basados en la distancia, etc.), debería ajustarse a los datos de entrenamiento y luego a los de prueba (división de entrenamiento y prueba), al igual que una técnica supervisada común de creación de pliegos de datos?

Ayuda de muchas maneras durante el aprendizaje supervisado para reducir el sobreajuste.

¿O no importa en el aprendizaje no supervisado y puedo entrenar en todo mi conjunto de datos disponible? Ya que no hay etiquetas o medidas para comprobar la precisión del ajuste.

2voto

peter_raven Puntos 1021

No tiene mucho sentido dividir el conjunto de datos para el aprendizaje no supervisado, ya que no tiene etiquetas para calcular automáticamente la precisión/eficacia de su modelo.

Una forma de hacerse una idea de lo bien que funciona su modelo es comprobar las muestras detectadas de su modelo no supervisado. Por ejemplo, digamos que ha detectado 50 muestras que se alejan de la mayoría de sus datos, entonces compruebe manualmente esas 50 para ver el porcentaje de positivos. De este modo, podrá saber lo bueno que es su modelo. Entonces, basándose en su conocimiento previo sobre cuántos casos positivos (aproximadamente) debería haber en su conjunto de datos, puede estimar cuántos casos positivos no son capturados por su modelo actual. Esto le permite calcular una sensibilidad y especificidad aproximadas de su modelo.

1voto

Robert Puntos 706

Las divisiones de la prueba de entrenamiento se realizan para estimar el error fuera de la muestra. La detección de anomalías sería un caso en el que las divisiones de entrenamiento y prueba podrían ser útiles, suponiendo que se disponga de etiquetas, pero entonces sería mejor utilizar el aprendizaje supervisado. Normalmente no es necesario utilizar una división de validación para tareas no supervisadas, pero depende de la situación.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X