7 votos

¿Cuál debe aplicarse primero: el muestreo de datos o la reducción de la dimensionalidad?

Estoy trabajando en un problema de clasificación binaria. El conjunto de datos es muy grande y está muy desequilibrado.
La dimensionalidad de los datos también es muy alta. Ahora quiero equilibrar los datos submuestreando la clase mayoritaria, y también quiero reducir la dimensionalidad de los datos aplicando PCA, etc.

Así que mi pregunta es: ¿cuál debería aplicarse primero: el muestreo de datos o la reducción de la dimensionalidad? Por favor, también dé un argumento a favor de su respuesta.

Gracias de antemano

4voto

Andre Holzner Puntos 108

Haga primero la reducción de la dimensionalidad: su error en la estimación de los componentes principales será menor debido a la mayor muestra (¡su matriz Corr/Cov utilizada en el PCA tiene que ser estimada!).

Lo contrario sólo tiene sentido por razones informáticas.

3voto

Omar Shahine Puntos 886

Por lo general, es conveniente que los conjuntos de datos de entrenamiento y de validación estén lo más separados posible. Lo ideal sería que los datos del conjunto de validación se obtuvieran sólo después de haber entrenado el modelo. Si realizas la reducción de la dimensionalidad antes de dividir los datos en conjuntos separados, rompes este aislamiento entre el entrenamiento y la validación y no estarás seguro de si el proceso de reducción de la dimensionalidad se ha ajustado en exceso hasta que tu modelo se pruebe en la vida real.

Dicho esto, hay casos en los que la separación eficiente de los conjuntos de entrenamiento, prueba y validación no es factible y se utilizan otras técnicas de muestreo, como la validación cruzada, dejar k fuera, etc. En estos casos, reducir la dimensionalidad antes del muestreo podría ser el enfoque adecuado.

1voto

pauly Puntos 932

Abogado del diablo: Podría imaginar que los componentes principales difieren según la muestra. Creo que este problema de validez tendría prioridad sobre el problema de precisión que señala Richard.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X