Ventajas del muestreo estratificado frente al aleatorio para generar datos de entrenamiento en la clasificación

Question

Ventajas del muestreo estratificado frente al aleatorio para generar datos de entrenamiento en la clasificación

Preguntado el 7 de Diciembre, 2016: Cuando se hizo la pregunta
39028 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Me gustaría saber si hay alguna/algunas ventajas de utilizar un muestreo estratificado en lugar de un muestreo aleatorio, al dividir el conjunto de datos original en conjunto de entrenamiento y de prueba para la clasificación.

Además, ¿el muestreo estratificado introduce más sesgos en el clasificador que el muestreo aleatorio?

La aplicación, para la que me gustaría utilizar el muestreo estratificado para la preparación de los datos, es un clasificador Random Forests, entrenado en $\frac{2}{3}$ del conjunto de datos original. Antes del clasificador, también hay un paso de generación de muestras sintéticas (SMOTE [1]) que equilibra el tamaño de las clases.

[1] Chawla, Nitesh V., et al. " SMOTE: técnica de sobremuestreo de minorías sintéticas. " Journal of Artificial Intelligence Research 16 (2002): 321-357.

Preguntado el 7 de Diciembre, 2016 por szpic

Answer 1

1 Respuestas

Answer 2

41voto

Franck Dernoncourt Puntos 2128

Muestreo estratificado tiene como objetivo dividir un conjunto de datos de manera que cada división sea similar con respecto a algo.

En un entorno de clasificación, a menudo se elige para garantizar que los conjuntos de entrenamiento y prueba tengan aproximadamente el mismo porcentaje de muestras de cada clase objetivo que el conjunto completo.

En consecuencia, si el conjunto de datos tiene una gran cantidad de cada clase, el muestreo estratificado es prácticamente igual al muestreo aleatorio. Pero si una clase no está muy representada en el conjunto de datos, lo que puede ser el caso de su conjunto de datos, ya que planea sobremuestrear la clase minoritaria, entonces el muestreo estratificado puede producir una distribución de la clase objetivo diferente en los conjuntos de entrenamiento y prueba de lo que puede producir el muestreo aleatorio.

Obsérvese que el muestreo estratificado también puede diseñarse para distribuir equitativamente algunas características en los siguientes conjuntos de entrenamiento y prueba. Por ejemplo, si cada muestra representa a un individuo, y una característica es la edad, a veces es útil tener la misma distribución de la edad en el conjunto de entrenamiento y de prueba.

PARA SU INFORMACIÓN:

Respondido el 10 de Diciembre, 2016 por Franck Dernoncourt (2128 Puntos )

Ventajas del muestreo estratificado frente al aleatorio para generar datos de entrenamiento en la clasificación

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

Ventajas del muestreo estratificado frente al aleatorio para generar datos de entrenamiento en la clasificación

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: