1 votos

Sesgo de selección y fiabilidad

Necesito un poco de ayuda para interpretar los resultados de la clasificación.

Tengo un conjunto de datos desequilibrados (80% = 0 20% = 1), el ajuste de los clasificadores (SVM, GradientBoosting o kNN) en tales datos no da buenos resultados (incluso utilizando la ponderación). Es decir, la precisión es muy buena, pero la clase minoritaria está clasificada erróneamente en su mayoría, como es de esperar.

Así que decidí equilibrar los datos del tren utilizando el submuestreo (el número de muestras es suficiente para hacerlo).

De esta manera introduzco sesgo de selección y obtengo buenos resultados de clasificación en datos de prueba (no equilibrados).

¿Puedo suponer que esos resultados son fiables?

1voto

Jack Puntos 18

¿Quizás tenga un conjunto de datos de validación para el que utilice su algoritmo clasificador si da directamente las etiquetas de clase? Entonces sabrá cómo se comporta.

Otra posibilidad es tener un estimador de probabilidad que en sí mismo no clasifica nada, pero puede utilizar las probabilidades predichas para formar un umbral de clasificación. Existen fórmulas que pueden convertir las probabilidades predichas de la muestra de entrenamiento en probabilidades a nivel poblacional.

Aquí está el enlace a este último tema:

http://support.sas.com/kb/22/601.html

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X