7 votos

CARRO (rpart) equilibrada vs desequilibrio dataset

Yo soy el ajuste de un árbol (CART) para las aceitunas-conjunto de datos. Los datos de entrenamiento tiene 436 observaciones (datos de prueba: 136). Tengo 3 respuestas (la 'Región' variable), que divide los datos de entrenamiento en 116 / 74 / 246 observaciones.

Si me parcela de las variables eicosenoic y linoleico, puedo ver una casi perfecta de la clasificación.

He utilizado un equilibrado conjunto de datos con 74 observaciones para cada respuesta (por cierto, es eso correcto o debo usar un tamaño más pequeño que el 74 observaciones?) y tengo casi el mismo los resultados de la predicción de la testdata como para el desequilibrio del conjunto de datos.

Es por eso que me pregunto si un equilibrado conjunto de datos es necesario en este caso? Supongo que el equilibrio no es necesario, pero no estoy seguro y me gustaría saber otras opiniones.

3voto

Nathan Long Puntos 30303

Si usted tiene bien separados de las clases en el espacio de características no va a hacer mucho de un cambio en las predicciones de los datos de prueba si usted tiene un equilibrio o un desequilibrio en el conjunto de datos de entrenamiento mientras usted tiene los datos suficientes para identificar las clases razonablemente bien.

Si la clase de las distribuciones de características se superponen considerablemente su una historia diferente. Cuál es la cosa correcta a hacer es depende de su función de pérdida y la distribución de clases en el futuro muestras que se desea predecir.

Si la distribución de clases en el futuro muestras es aproximadamente 0.26 / 0.18 / 0.56 como en los datos de entrenamiento, y utilizar el 0-1 de la pérdida de función para contar el número de errores en las clasificaciones, será en general conseguir un menor número de errores en las clasificaciones si usted guarda los datos de entrenamiento de balance.

Como comentario general yo siempre iba a evitar el hecho de tirar de datos, a menos que el conjunto de datos de entrenamiento es enorme. Si usted espera que el futuro de las muestras de una distribución de clases que difiere de la de los datos de entrenamiento, me gustaría tratar de incorporar en el modelo. En un árbol de clasificación que se podría hacer mediante la ponderación. Si usted utiliza (ingenua) de Bayes, usted puede simplemente cambiar antes de la clase de probabilidades.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X