CARRO (rpart) equilibrada vs desequilibrio dataset

Question

CARRO (rpart) equilibrada vs desequilibrio dataset

Preguntado el 23 de Agosto, 2012: Cuando se hizo la pregunta
812 visitas: Cuantas visitas ha tenido la pregunta
1 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

Yo soy el ajuste de un árbol (CART) para las aceitunas-conjunto de datos. Los datos de entrenamiento tiene 436 observaciones (datos de prueba: 136). Tengo 3 respuestas (la 'Región' variable), que divide los datos de entrenamiento en 116 / 74 / 246 observaciones.

Si me parcela de las variables eicosenoic y linoleico, puedo ver una casi perfecta de la clasificación.

He utilizado un equilibrado conjunto de datos con 74 observaciones para cada respuesta (por cierto, es eso correcto o debo usar un tamaño más pequeño que el 74 observaciones?) y tengo casi el mismo los resultados de la predicción de la testdata como para el desequilibrio del conjunto de datos.

Es por eso que me pregunto si un equilibrado conjunto de datos es necesario en este caso? Supongo que el equilibrio no es necesario, pero no estoy seguro y me gustaría saber otras opiniones.

Preguntado el 23 de Agosto, 2012 por Bob Gifford

Answer 1

1 Respuestas

Answer 2

3voto

Nathan Long Puntos 30303

Si usted tiene bien separados de las clases en el espacio de características no va a hacer mucho de un cambio en las predicciones de los datos de prueba si usted tiene un equilibrio o un desequilibrio en el conjunto de datos de entrenamiento mientras usted tiene los datos suficientes para identificar las clases razonablemente bien.

Si la clase de las distribuciones de características se superponen considerablemente su una historia diferente. Cuál es la cosa correcta a hacer es depende de su función de pérdida y la distribución de clases en el futuro muestras que se desea predecir.

Si la distribución de clases en el futuro muestras es aproximadamente 0.26 / 0.18 / 0.56 como en los datos de entrenamiento, y utilizar el 0-1 de la pérdida de función para contar el número de errores en las clasificaciones, será en general conseguir un menor número de errores en las clasificaciones si usted guarda los datos de entrenamiento de balance.

Como comentario general yo siempre iba a evitar el hecho de tirar de datos, a menos que el conjunto de datos de entrenamiento es enorme. Si usted espera que el futuro de las muestras de una distribución de clases que difiere de la de los datos de entrenamiento, me gustaría tratar de incorporar en el modelo. En un árbol de clasificación que se podría hacer mediante la ponderación. Si usted utiliza (ingenua) de Bayes, usted puede simplemente cambiar antes de la clase de probabilidades.

Respondido el 24 de Agosto, 2012 por Nathan Long (30303 Puntos )

CARRO (rpart) equilibrada vs desequilibrio dataset

Respuesta

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

CARRO (rpart) equilibrada vs desequilibrio dataset

Respuesta

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: