39 votos

Ventajas del muestreo estratificado frente al aleatorio para generar datos de entrenamiento en la clasificación

Me gustaría saber si hay alguna/algunas ventajas de utilizar un muestreo estratificado en lugar de un muestreo aleatorio, al dividir el conjunto de datos original en conjunto de entrenamiento y de prueba para la clasificación.

Además, ¿el muestreo estratificado introduce más sesgos en el clasificador que el muestreo aleatorio?

La aplicación, para la que me gustaría utilizar el muestreo estratificado para la preparación de los datos, es un clasificador Random Forests, entrenado en $\frac{2}{3}$ del conjunto de datos original. Antes del clasificador, también hay un paso de generación de muestras sintéticas (SMOTE [1]) que equilibra el tamaño de las clases.

[1] Chawla, Nitesh V., et al. " SMOTE: técnica de sobremuestreo de minorías sintéticas. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

41voto

Franck Dernoncourt Puntos 2128

Muestreo estratificado tiene como objetivo dividir un conjunto de datos de manera que cada división sea similar con respecto a algo.

En un entorno de clasificación, a menudo se elige para garantizar que los conjuntos de entrenamiento y prueba tengan aproximadamente el mismo porcentaje de muestras de cada clase objetivo que el conjunto completo.

En consecuencia, si el conjunto de datos tiene una gran cantidad de cada clase, el muestreo estratificado es prácticamente igual al muestreo aleatorio. Pero si una clase no está muy representada en el conjunto de datos, lo que puede ser el caso de su conjunto de datos, ya que planea sobremuestrear la clase minoritaria, entonces el muestreo estratificado puede producir una distribución de la clase objetivo diferente en los conjuntos de entrenamiento y prueba de lo que puede producir el muestreo aleatorio.

Obsérvese que el muestreo estratificado también puede diseñarse para distribuir equitativamente algunas características en los siguientes conjuntos de entrenamiento y prueba. Por ejemplo, si cada muestra representa a un individuo, y una característica es la edad, a veces es útil tener la misma distribución de la edad en el conjunto de entrenamiento y de prueba.

PARA SU INFORMACIÓN:

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X