Me gustaría entrenar a un SVM para clasificar los casos (VERDADERO / FALSO) según 20 atributos. Sé que algunos de esos atributos están altamente correlacionados. Por lo tanto, mi pregunta es: ¿SVM es sensible a la correlación, o redundancia, entre las características? ¿Alguna referencia?
Respuesta
¿Demasiados anuncios?Lineal del núcleo: El efecto es similar a la de la multicolinealidad en la regresión lineal. Aprendido tu modelo no puede ser particularmente estable frente a pequeñas variaciones en el conjunto de entrenamiento, debido a que los diferentes vectores de peso similares a las salidas. El conjunto de entrenamiento predicciones, sin embargo, será bastante estable, y por lo pondrá a prueba las predicciones de si provienen de la misma distribución.
RBF kernel: El kernel RBF sólo se ve en las distancias entre los puntos de datos. Por lo tanto, imaginar que realmente tiene 11 atributos, pero uno de ellos se repite 10 veces (un bonito caso extremo). Luego de que se repite atributo contribuirá 10 veces como mucho a la distancia como cualquier otro atributo, y el aprendido modelo será probablemente mucho más afectado por esa característica.
Una manera simple de descuento correlaciones con un kernel RBF es el uso de la distancia de Mahalanobis: $d(x, y) = \sqrt{ (x - y)^T S^{-1} (x - y) }$ donde $S$ es una estimación de la matriz de covarianza de la muestra. Equivalentemente, mapa de todos sus vectores $x$ a $C x$ y, a continuación, utilizar la RBF núcleo, donde $C$ es tal que $S^{-1} = C^T C$, por ejemplo, la descomposición de Cholesky $S^{-1}$.