Estoy trabajando en un problema de clasificación binaria que es de tamaño razonable (100k observaciones). He extraído de 60 características numéricas; las clases en el conjunto de entrenamiento están bien equilibrados. Hay algunos lineal significativa de los patrones, pero después de que los patrones parecen muy aleatoria y por lo tanto tengo el clasificador de modelos que pueden lidiar con esto.
Estoy realmente esperando para exprimir el mejor posible (estimado) precisión, en el sacrificio de esfuerzo computacional, por lo que estoy considerando la creación de un conjunto de clasificador.
Hasta ahora, he recibido muy buenos resultados, con:
- un Bosque Aleatorio clasificador (90% CV exactitud)
- un radial de la base del clasificador SVM (87% CV exactitud, ocupado todavía de optimización en una mejor cuadrícula).
Ahora estoy pensando si hay alguna otra potencialmente interesante algoritmos de los que se podría agregar a la mezcla (tres sería bueno para la mayoría de los votos, por ejemplo). Espero diversos modelos me va a ayudar a arrojar algo potencialmente resto de sesgo y mejorar la precisión de un poco. Preferiblemente me gustaría utilizar algoritmos disponibles a través de R es el símbolo de intercalación del paquete. Estoy mirando de Gauss procesos de ahora.
Mi experiencia en el aprendizaje de máquina no es muy teórico; yo realmente sólo tienen experiencia íntima con SVM, árboles de decisión y bosques aleatorios, por lo que la lista de los algoritmos en símbolo de intercalación es bastante desalentador y estoy teniendo un tiempo difícil encontrar estudios aplicados que compararlos. Sé que es difícil predecir el rendimiento relativo en particular de datos, pero estoy dispuesto a grabar a través de un par de ellos!