Estoy trabajando en el BRFSS conjunto de datos con el objetivo de predecir la Diabetes. El conjunto de datos tiene 500.000 filas y 405 columnas. Es una 0/1 problema de clasificación, la proporción de 0 a 1 es de 90:10. He intentado utilizar árboles de decisión, la regresión logística es un conjunto de árboles de decisión y regresión logística y mi error en la clasificación de la tasa es de casi 14% en todos estos métodos.
- ¿Qué debo hacer para aumentar la precisión?
Vi a un anterior post que dice submuestreo o asignar diferentes pesos de ayuda. Pero no estoy seguro acerca de la relación.
- ¿Cuál sería la mejor relación para empezar?
- Estoy trabajando utilizando SAS. Es allí una manera de hacer submuestreo en SAS?
- Yo también estoy interesado en probar el promedio ponderado de enfoque. Hay una manera de implementar esto en SAS?
EDITAR (28 Apr 2011)
Traté de submuestreo y mi tasa de error en la clasificación va desde el 14% al 23%. La relación utilizada fue de 50:50 para las clases 0 y 1. El original de la relación de los datos fue de 90:10, y el uso de los datos como se dio el 14% de error. Entonces, yo creo que submuestreo no funciona para mi de datos. Sugeriría a cualquier otra forma de mejorar la precisión?