3 votos

Recogida de datos de entrenamiento para la clasificación de documentos con clases desequilibradas

Tengo un problema de clasificación de documentos en el que las proporciones de clase estimadas en la población están muy desequilibradas: la población es ~99% clase 0 y ~1% clase 1.

Estoy utilizando un clasificador de regresión logística (LibLINEAR), y tengo poca flexibilidad en esta decisión.

Para maximizar la puntuación F1 del clasificador, ¿debo intentar recoger datos de entrenamiento con las mismas proporciones de clase que la población (asegurándome de que hay suficientes instancias de la clase minoritaria)? ¿O debería recoger proporciones iguales de las clases y utilizar penalizaciones por clasificación errónea asimétrica?

2voto

Ludwi Puntos 188

Utilizar diferentes penalizaciones por clasificación errónea es una buena idea. La teoría que le permite hacer esto y le dice cómo corregir los sesgos es muestreo de importancia .

Digamos que la proporción de la clase 1 en el mundo real es $p$ pero la proporción en su conjunto de entrenamiento es $q$ . Entonces, para corregir este sesgo, debe ponderar las instancias de la clase 1 por $\frac{p}{q}$ y las instancias de la clase 0 por $\frac{1 - p}{1 - q}$ . Es decir, si la función objetivo de su casificador es

$$\sum_{(x, y) \in \mathcal{P} \cup \mathcal{N}} f(x, y),$$

debe cambiarlo por

$$\sum_{(x, y) \in \mathcal{P}} \frac{p}{q} f(x_i, y_i) + \sum_{(x, y) \in \mathcal{N}} \frac{1 - p}{1 - q} f(x, y),$$

donde $\mathcal{P}$ y $\mathcal{N}$ contienen sus ejemplos positivos y negativos, respectivamente.

1voto

LachlanG Puntos 133

Yo recomendaría recopilar documentos para una proporción de clase que refleje lo que se observará en la población mayor de documentos de interés. Por ejemplo, en la clasificación de textos biomédicos, a menudo tenemos datos muy sesgados -los documentos de clase positiva tienden a ser raros- y el clasificador tiene que ser capaz de lidiar con esto. Si recoge una proporción igual de clases para sus datos de entrenamiento, pero los documentos no vistos en el mundo real que va a clasificar proceden de una distribución desequilibrada, su rendimiento se verá afectado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X