Tengo un problema de clasificación de documentos en el que las proporciones de clase estimadas en la población están muy desequilibradas: la población es ~99% clase 0 y ~1% clase 1.
Estoy utilizando un clasificador de regresión logística (LibLINEAR), y tengo poca flexibilidad en esta decisión.
Para maximizar la puntuación F1 del clasificador, ¿debo intentar recoger datos de entrenamiento con las mismas proporciones de clase que la población (asegurándome de que hay suficientes instancias de la clase minoritaria)? ¿O debería recoger proporciones iguales de las clases y utilizar penalizaciones por clasificación errónea asimétrica?