En la práctica, la razón por la que SVMs tienden a ser resistentes a la sobre-ajuste, incluso en los casos donde el número de atributos es mayor que el número de observaciones, es que utiliza la regularización. Lo clave para evitar el exceso de ajuste se encuentra en cuidado de optimización del parámetro de regularización, $C$, y en el caso de no-lineal de las SVMs, la cuidadosa elección de kernel y la sintonización de los parámetros del kernel.
La SVM es un aproximado de la implementación de un obligado en la generalización de error, que depende del margen (fundamentalmente de la distancia a partir de la decisión de límite a la más cercana patrón de cada clase), pero es independiente de la dimensionalidad del espacio de características (es por eso que con el kernel truco para asignar los datos en un muy alto dimensiones del espacio no es una mala idea de lo que podría parecer). Así que , en principio, SVMs debe ser altamente resistente a la sobre-ajuste, pero en la práctica esto depende de la cuidadosa selección de $C$ y los parámetros del kernel. Lamentablemente, ajuste también puede ocurrir con bastante facilidad a la hora de optimizar el hyper-parámetros así, que es mi principal área de investigación, ver
G. C. Cawley y N. L. C. Talbot, evitar el exceso de ajuste en el modelo de selección a través de regularización Bayesiana de la hiper-parámetros, Diario de Aprendizaje de la Máquina de la Investigación, volumen 8, páginas 841-861, abril de 2007. (www)
y
G. C. Cawley y N. L. C. Talbot, Sobre-ajuste en el modelo de selección y posterior sesgo de selección en la evaluación de desempeño, Diario de Aprendizaje de la Máquina de la Investigación, 2010. La investigación, vol. 11, pp 2079-2107, julio de 2010. (www)
Tanto de aquellos documentos de uso el kernel de regresión ridge, en lugar de la SVM, pero el mismo problema se plantea la misma facilidad con la SVMs (también similar límites se aplican a la RRK, así que no hay mucho para elegir entre ellos en la práctica). De tal manera, SVMs no soluciona realmente el problema de la sobre-ajuste, que acaba de desplazar el problema de ajuste del modelo para la selección de modelo.
A menudo es una tentación para hacer la vida un poco más fácil para la SVM mediante la realización de algún tipo de función de selección de primero. Esto generalmente lo hace peor, ya que a diferencia de la SVM, cuentan con algoritmos de selección tienden a mostrar más adecuado ya que el número de atributos aumenta. A menos que usted desea saber cuales son los informativos atributos, por lo general es mejor omitir la selección de la función de paso y sólo el uso de regularización para evitar la sobre-ajuste de los datos.
En definitiva, no hay ningún problema inherente con el uso de un SVM (u otros de regularización, modelo, tales como la regresión ridge, LARS, Lazo elástico de la red, etc.) en un problema con 120 observaciones y miles de atributos, siempre que la regularización de los parámetros se han ajustado correctamente.