Tengo unos 5544 carreras donde estoy tratando de clasificar como fracaso o éxito. Aquí el número de pistas que conducen al fracaso es sólo 64 y resto es éxito. ¿En ese caso cuando intento utilizar SVM debo hacer el número de clases igual? ¿Esto afectará los resultados?
Respuestas
¿Demasiados anuncios?Sí, para una explicación detallada, consulte el documento "Una interpretación geométrica de la $\nu$SVM-Clasificadores" por David J. Crujiente y Christopher J. C. Burges. La idea es que el $\nu$ está limitada por el importe $\nu \leq 2l_{min}/l$ donde $l_{min}$ es la cantidad de puntos de muestra de la mínima, y $l$ es la cantidad total de puntos.
Un desequilibrio problema esta cantidad es muy pequeña. Al mismo tiempo, $\nu$ es un límite superior en la fracción de margen de errores y un límite inferior en la fracción de soporte de vectores. En realidad, usted podría terminar con un gran número de SVs, ya que la fracción de margen de errores es forzado a los muy bajos.
Consulte "Guía del Usuario para Máquinas de Vectores Soporte" por Asa a Ben-Hur y Jason Weston un método para lidiar con este problema.
Gracias a @TenaliRaman para su respuesta.Estoy copiando el mismo.
Sí. Tales datos se llama no balanceada/desbalanceada de datos. Por lo general, el número de puntos por clase igual ayuda mucho en conseguir un mejor clasificador. Pero entonces, no necesariamente el mejor clasificador. Usted necesita para probar varias cosas aquí, 1] Tratar uniformemente al azar la elección de 64 puntos de éxito de la clase y la formación de su SVM 2] Calcular la media de la falta de clase y elija 64 puntos de éxito de la clase que es la más cercana a la falla decir 3] Si se usa libSVM, utilizar todo el conjunto de datos y proporcionar la clase pesos proporcional al desequilibrio que se observa
Si usted compruebe las opciones de libSVM verá la -wi opción. En su caso, (5544 - 64)/64 = 85.625. Por lo tanto, si su etiqueta de error es 0 y el éxito es 1, entonces usted puede agregar la opción -w0 85.625 a su libSVM comando