Es difícil pensar en una más elocuente forma de redactar esta pregunta - estoy básicamente preguntando si un clasificador entrenado en los datos de donde los ejemplos de algunas de las clases son poco frecuentes/raro sería un mal modelo? Estoy principalmente interesado en los árboles de decisión (C4.5).
Creo que la respuesta es no, pero de que obtendrá una alta error, porque se suele clasificar a los miembros de la poca frecuencia de las clases de instancias de la más frecuente de las clases. Esta ha sido mi experiencia hasta ahora.
También me pregunto cuando es bien para quitar estos ejemplos y cuando se considera mala práctica (es decir, de hacerlo solo para reducir el error). Supongo que está bien para quitar estos si hay una buena razón para hacerlo, y se les explica que el razonamiento cuando se informe de sus resultados.
No estoy realmente interesado en la construcción de la mejor clasificador, estoy más interesado en la comprensión de las relaciones entre las variables y la estructura de los datos. Pero todas mis variables son categóricas y no lineal de los datos, para la toma de árboles han sido hasta ahora la mejor herramienta que he encontrado para hacer esto. (SVMs y el conjunto de métodos que son más precisos, pero realmente no se puede ver el modelo interno de la estructura, que se obtiene con árboles de decisión.)
gracias.