6 votos

Recomendamos los algoritmos de clasificación para tratar de

Estoy trabajando en un problema de clasificación binaria que es de tamaño razonable (100k observaciones). He extraído de 60 características numéricas; las clases en el conjunto de entrenamiento están bien equilibrados. Hay algunos lineal significativa de los patrones, pero después de que los patrones parecen muy aleatoria y por lo tanto tengo el clasificador de modelos que pueden lidiar con esto.

Estoy realmente esperando para exprimir el mejor posible (estimado) precisión, en el sacrificio de esfuerzo computacional, por lo que estoy considerando la creación de un conjunto de clasificador.

Hasta ahora, he recibido muy buenos resultados, con:

  • un Bosque Aleatorio clasificador (90% CV exactitud)
  • un radial de la base del clasificador SVM (87% CV exactitud, ocupado todavía de optimización en una mejor cuadrícula).

Ahora estoy pensando si hay alguna otra potencialmente interesante algoritmos de los que se podría agregar a la mezcla (tres sería bueno para la mayoría de los votos, por ejemplo). Espero diversos modelos me va a ayudar a arrojar algo potencialmente resto de sesgo y mejorar la precisión de un poco. Preferiblemente me gustaría utilizar algoritmos disponibles a través de R es el símbolo de intercalación del paquete. Estoy mirando de Gauss procesos de ahora.

Mi experiencia en el aprendizaje de máquina no es muy teórico; yo realmente sólo tienen experiencia íntima con SVM, árboles de decisión y bosques aleatorios, por lo que la lista de los algoritmos en símbolo de intercalación es bastante desalentador y estoy teniendo un tiempo difícil encontrar estudios aplicados que compararlos. Sé que es difícil predecir el rendimiento relativo en particular de datos, pero estoy dispuesto a grabar a través de un par de ellos!

1voto

John Puntos 151

¿Puede describir simplemente lo que son estas características ? Si las características que provienen de algunas de datos complejos, como imágenes o archivos de audio, el tamaño de su conjunto de datos permite el uso de un clasificador que aprender en sí la representación intermedia, por ejemplo profunda de las redes neuronales. No sé si R ofrece buenos recursos para el aprendizaje profundo, usted puede iniciar, por ejemplo, con la gestión por resultados, como se muestra en esta pregunta. No creo que el común de las bibliotecas de implementar Autoencoder. Ver estas notas de la conferencia y Baldi, 2010 para una introducción.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X