Yo soy el ajuste de un árbol (CART) para las aceitunas-conjunto de datos. Los datos de entrenamiento tiene 436 observaciones (datos de prueba: 136). Tengo 3 respuestas (la 'Región' variable), que divide los datos de entrenamiento en 116 / 74 / 246 observaciones.
Si me parcela de las variables eicosenoic y linoleico, puedo ver una casi perfecta de la clasificación.
He utilizado un equilibrado conjunto de datos con 74 observaciones para cada respuesta (por cierto, es eso correcto o debo usar un tamaño más pequeño que el 74 observaciones?) y tengo casi el mismo los resultados de la predicción de la testdata como para el desequilibrio del conjunto de datos.
Es por eso que me pregunto si un equilibrado conjunto de datos es necesario en este caso? Supongo que el equilibrio no es necesario, pero no estoy seguro y me gustaría saber otras opiniones.