4 votos

escalar para SVM destruye mis resultados

Yo soy la aplicación de normas de 0-1 escala de características antes de la SVM clasificación de datos financieros, pero los resultados son peores. Este es el resultado antes de escalar

    NORMAL DATA AVERAGE RESULTS
      Profit           PF         avMC         avPP         avRC        totTP        totFP         PF>1     algosnum           SS          SSl
  4389060.90         6.85        -0.00        60.69         0.50        16086        10973            5            8            1            5

y esto es después de escalar

NORMAL DATA AVERAGE RESULTS
      Profit           PF         avMC         avPP         avRC        totTP        totFP         PF>1     algosnum           SS          SSl
  2256204.80      2044.51        -0.07        52.53         0.46        14577        12220            4            8            1            5

El escalado se realiza en el rango 0-1, los datos de prueba se escala según el factor de escala de los datos del tren. A partir de los resultados anteriores se puede ver que la precisión fue abajo (avPP) de 60.69 a 52.53, el promedio de Mathew Índice de Correlación de 0 a -0.07 número de verdaderos positivos bajó de 16086 a 14577 y el número de falsos positivos crecido de 10973 a 12220. El resultado es un resultado de 80 clasificaciones en los diferentes instrumentos financieros de los datos de 80 conjuntos de datos 20000x200 así que creo que el resultado es muy significativo.

Así que mi pregunta es: En tal situación, ¿cómo debo proceder? Se me atengo a escala? O tal vez debería generar conjunto de datos diferente para comprobar si este comportamiento es coherente? Qué tipo de análisis de mi cuenta que puedo hacer? Mi conjunto de datos es una mezcla de binarios y continuo de características en diferentes escalas.

6voto

user777 Puntos 10934

Tenga en mente ¿por qué la gente suele escala antes de la estimación de una SVM. La idea es que los datos están en diferentes escalas, y este hecho fortuito de cómo las cosas se midieron puede no ser deseable, por ejemplo, la medición de algunos de longitud de la cantidad en metros frente kilómetros. Obviamente uno tendrá un rango mucho mayor a pesar de que ambos representan la misma cantidad física.

Sin embargo, no hay ninguna razón para creer que la nueva escala es mejor. Si bien es cierto que el reescalado características varían en unidades comparables, también es posible que el original de escalamiento ocurrido para codificar los datos de tal forma que algunas de las características importantes tenido más importancia en el modelo.

No mencionar lo del kernel de la función que está usando, pero creo que es ilustrativo considerar el ejemplo de dos versiones diferentes de la Gauissian kernel RBF: $K_1(x,x^\prime)=\exp(-\gamma||x-x^\prime||^2_2).$ Esta es una isotrópica núcleo, lo que significa que la misma escala ($\gamma$) se aplica en todas las direcciones. Una más general del núcleo de la función podría tener la forma $K_2(x,x^\prime)=\exp\big(-(x-x^\prime)\Gamma(x-x^\prime)\big);$ es anisotrópico como $\Gamma$ es una diagonal PSD de la matriz, con cada elemento de la aplicación de una diferente escala para cada dirección. La ventaja de este núcleo de la función es que va a variar con más fuerza en algunas direcciones que en otras.

Volviendo a tu pregunta, es posible imaginar que sus datos tienen, por cualquier razón, algunas de las características que son más importantes que otras, y que esto coincide con la escala en que se miden. La colocación de ellos en la nueva escala, donde todos ellos aparecen en las escalas similares y son tratados igualmente importante, significa que la importancia o el ruido de las características de la nube de la señal.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X