16 votos

¿Es la Máquina de vectores de soporte sensible a la correlación entre los atributos?

Me gustaría entrenar a un SVM para clasificar los casos (VERDADERO / FALSO) según 20 atributos. Sé que algunos de esos atributos están altamente correlacionados. Por lo tanto, mi pregunta es: ¿SVM es sensible a la correlación, o redundancia, entre las características? ¿Alguna referencia?

16voto

Bauna Puntos 176

Lineal del núcleo: El efecto es similar a la de la multicolinealidad en la regresión lineal. Aprendido tu modelo no puede ser particularmente estable frente a pequeñas variaciones en el conjunto de entrenamiento, debido a que los diferentes vectores de peso similares a las salidas. El conjunto de entrenamiento predicciones, sin embargo, será bastante estable, y por lo pondrá a prueba las predicciones de si provienen de la misma distribución.

RBF kernel: El kernel RBF sólo se ve en las distancias entre los puntos de datos. Por lo tanto, imaginar que realmente tiene 11 atributos, pero uno de ellos se repite 10 veces (un bonito caso extremo). Luego de que se repite atributo contribuirá 10 veces como mucho a la distancia como cualquier otro atributo, y el aprendido modelo será probablemente mucho más afectado por esa característica.

Una manera simple de descuento correlaciones con un kernel RBF es el uso de la distancia de Mahalanobis: $d(x, y) = \sqrt{ (x - y)^T S^{-1} (x - y) }$ donde $S$ es una estimación de la matriz de covarianza de la muestra. Equivalentemente, mapa de todos sus vectores $x$ a $C x$ y, a continuación, utilizar la RBF núcleo, donde $C$ es tal que $S^{-1} = C^T C$, por ejemplo, la descomposición de Cholesky $S^{-1}$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X