Estoy trabajando en un problema de clasificación binaria. El conjunto de datos es muy grande y está muy desequilibrado.
La dimensionalidad de los datos también es muy alta. Ahora quiero equilibrar los datos submuestreando la clase mayoritaria, y también quiero reducir la dimensionalidad de los datos aplicando PCA, etc.
Así que mi pregunta es: ¿cuál debería aplicarse primero: el muestreo de datos o la reducción de la dimensionalidad? Por favor, también dé un argumento a favor de su respuesta.
Gracias de antemano