En la práctica, la razón por la que las SVM tienden a ser resistentes al sobreajuste, incluso en los casos en que el número de atributos es mayor que el número de observaciones, es que utiliza la regularización. La clave para evitar el sobreajuste reside en el ajuste cuidadoso del parámetro de regularización, $C$ y, en el caso de las SVM no lineales, la elección cuidadosa del núcleo y el ajuste de los parámetros del mismo.
La SVM es una implementación aproximada de un límite en el error de generalización, que depende del margen (esencialmente la distancia desde el límite de decisión hasta el patrón más cercano de cada clase), pero es independiente de la dimensionalidad del espacio de características (por lo que usar el truco del kernel para mapear los datos en un espacio muy dimensional no es tan mala idea como podría parecer). Así que en principio Las SVM deberían ser muy resistentes al sobreajuste, pero en la práctica esto depende de la cuidadosa elección de $C$ y los parámetros del núcleo. Lamentablemente, el sobreajuste también puede producirse con bastante facilidad al ajustar los hiperparámetros, que es mi principal área de investigación, véase
G. C. Cawley y N. L. C. Talbot, Preventing over-fitting in model selection via Bayesian regularisation of the hyper-parameters, Journal of Machine Learning Research, volumen 8, páginas 841-861, abril de 2007. ( www )
y
G. C. Cawley y N. L. C. Talbot, Over-fitting in model selection and subsequent selection bias in performance evaluation, Journal of Machine Learning Research, 2010. Research, vol. 11, pp. 2079-2107, julio de 2010. ( www )
Ambos trabajos utilizan la regresión kernel ridge, en lugar de la SVM, pero el mismo problema surge con la misma facilidad con las SVM (también se aplican límites similares a la KRR, por lo que no hay mucho que elegir entre ellas en la práctica). Así que, en cierto modo, las SVM no resuelven realmente el problema del sobreajuste, sino que simplemente desplazan el problema del ajuste del modelo a la selección del mismo.
A menudo existe la tentación de facilitarle la vida a la SVM realizando primero algún tipo de selección de características. Esto generalmente empeora las cosas, ya que a diferencia de la SVM, los algoritmos de selección de características tienden a mostrar más sobreajuste a medida que aumenta el número de atributos. A menos que quiera saber cuáles son los atributos informativos, suele ser mejor saltarse el paso de selección de características y limitarse a utilizar la regularización para evitar el sobreajuste de los datos.
En resumen, no hay ningún problema inherente al uso de una SVM (u otro modelo regularizado como la regresión de cresta, LARS, Lasso, red elástica, etc.) en un problema con 120 observaciones y miles de atributos, siempre que los parámetros de regularización estén bien ajustados .