Me gustaría saber si hay alguna/algunas ventajas de utilizar un muestreo estratificado en lugar de un muestreo aleatorio, al dividir el conjunto de datos original en conjunto de entrenamiento y de prueba para la clasificación.
Además, ¿el muestreo estratificado introduce más sesgos en el clasificador que el muestreo aleatorio?
La aplicación, para la que me gustaría utilizar el muestreo estratificado para la preparación de los datos, es un clasificador Random Forests, entrenado en $\frac{2}{3}$ del conjunto de datos original. Antes del clasificador, también hay un paso de generación de muestras sintéticas (SMOTE [1]) que equilibra el tamaño de las clases.
[1] Chawla, Nitesh V., et al. " SMOTE: técnica de sobremuestreo de minorías sintéticas. " Journal of Artificial Intelligence Research 16 (2002): 321-357.