Para mi problema de clasificación, estoy tratando de clasificar un objeto como Bueno o Malo. He sido capaz de crear una buena primera clasificación de paso que separa los datos en 2 grupos mediante SVM.
Después de la sintonización de los parámetros de la SVM mediante una formación/conjunto de exclusiones (75% de la formación, el 25% de exclusión, he obtenido los siguientes resultados del conjunto de exclusiones: Grupo 1 (modelo clasificado como Malo) consistió en un 99% Malo objetos, y el Grupo 2 (modelo clasificado como Bueno) consistió en aproximadamente el 45% Buenos objetos y el 55% Malo objetos. He comprobado el rendimiento del modelo de uso de k-fold CV (k=5) y se encontró que el modelo sea estable y relativamente realizar de manera consistente, en términos de las tasas de error en la clasificación.
Ahora, quiero pasar estos objetos a través de otra ronda de clasificación mediante la formación de otro modelo (puede o no puede ser SVM) en mi grupo 2 de bueno tal vez/quizá mal objetos para tratar y clasificar correctamente este segundo grupo ahora que me he librado de una evidente mala objetos.
Yo tenía un par de pensamientos, pero no estoy seguro de cómo proceder.
(1) Mi primera idea fue utilizar los datos de los objetos clasificados desde el conjunto de exclusiones a entrenar a otro modelo. Yo era capaz de entrenar a otro modelo de clasificación a partir de los resultados del conjunto de exclusión. El problema es que estoy utilizando menos del 25% de los datos originales, y estoy preocupado de sobreajuste en un subconjunto muy pequeño de mis datos.
(2) Mi segunda idea fue reunir a los resultados de la 5 veces CV a crear otro conjunto de datos. Mi razonamiento es que, dado que los datos se dividen en 5 partes, y cada parte se clasifican en dos grupos, a partir de un modelo formado por las otras 4 partes, pensé que podría agregado de los resultados de la predicción de las 5 piezas para obtener un clasificado versión original de mi conjunto de datos y continuar desde allí.
El único problema es que tengo una sensación de hundimiento que ambos métodos no son buenas. Podría CV arrojar algo de luz sobre algunos de los posibles próximos pasos?
Gracias!
EDITAR
Lo siento, mi pregunta estaba mal redactada. Permítanme tratar de aclarar lo que estoy tratando de hacer. Se puede pensar en él como un árbol...
- Permítanme llamar al conjunto de datos original del Nodo 0.
- He utilizado método de clasificación de 1 a dividir el Nodo 0 al Nodo 1 y Nodo 2.
- El nodo 1 tiene una baja tasa de error en la clasificación (en su Mayoría consta de mala objetos)
- El nodo 2 tiene una alta tasa de error en la clasificación (Aproximadamente incluso la mezcla de bueno y malo de los objetos)
- Ahora quiero utilizar la clasificación del método 2 para dividir el Nodo 2 al Nodo 3 y 4
El "método de clasificación de" puede ser cualquier cosa (LDA, QDA, SVM, CARRO, Bosque Aleatorio, etc). Así que supongo que lo que estoy tratando de lograr aquí es una "clasificación" de árbol (no COMPRA), donde cada nodo es sometido a un diferente método de clasificación para la obtención de un general de alto "de la clase de pureza". Básicamente, quiero utilizar una combinación de diferentes métodos de clasificación para obtener resultados razonables.
Mi problema radica en la pérdida de datos de entrenamiento después de la primera división. Se me acaba de datos utilizables después de ejecutar a través de "método de clasificación de la 1", que fue SVM en mi caso.