Actualmente me encuentro con algunos problemas al analizar un conjunto de datos de tweets con máquinas de vectores soporte. El problema es que tengo un conjunto de entrenamiento de clases binarias desequilibrado (5:2); que se espera que sea proporcional a la distribución real de clases. Al predecir obtengo una precisión baja (0,47) para la clase minoritaria en el conjunto de validación; la recuperación es de 0,88. Intenté utilizar varios métodos de sobremuestreo y submuestreo (realizados en el conjunto de entrenamiento) que no mejoraron la precisión, ya que el conjunto de validación también está desequilibrado para reflejar la distribución real de las clases. También implementé diferentes costes en la máquina de vectores soporte, lo que ayudó. Ahora parece que ya no puedo mejorar el rendimiento.
¿Alguien tiene algún consejo sobre lo que podría hacer para mejorar mi precisión sin perjudicar mi capacidad de recuperación? Además, ¿alguien tiene alguna idea de por qué obtengo muchos más falsos positivos que falsos negativos (los positivos son la clase minoritaria)?