Los problemas de clasificación de textos suelen tener una dimensión bastante alta (muchas características), y es probable que los problemas de alta dimensión sean linealmente separables (ya que se pueden separar d+1 puntos en un espacio d-dimensional con un clasificador lineal, independientemente de cómo estén etiquetados los puntos). Por tanto, es probable que los clasificadores lineales, ya sean de regresión de cresta o SVM con un núcleo lineal, funcionen bien. En ambos casos, el parámetro de la cresta o C para la SVM (como menciona tdc +1) controlan la complejidad del clasificador y ayudan a evitar el sobreajuste separando los patrones de cada clase por grandes márgenes (es decir, la superficie de decisión pasa por el medio del hueco entre las dos colecciones de puntos). Sin embargo, para obtener un buen rendimiento, los parámetros de cresta/regularización deben ajustarse correctamente (yo utilizo la validación cruzada leave-one-out porque es barata).
Sin embargo, la razón por la que la regresión ridge funciona bien es que los métodos no lineales son demasiado potentes y resulta difícil evitar el sobreajuste. Puede haber un clasificador no lineal que ofrezca mejores resultados de generalización que el mejor modelo lineal, pero es demasiado difícil estimar esos parámetros con la muestra finita de datos de entrenamiento de que disponemos. En la práctica, cuanto más sencillo sea el modelo, menos problemas tendremos para estimar los parámetros, por lo que la tendencia a sobreajustar será menor y obtendremos mejores resultados.
Otro problema es la selección de características: la regresión ridge evita el sobreajuste regularizando los pesos para que sean pequeños, y la selección del modelo es sencilla, ya que sólo hay que elegir el valor de un único parámetro de regresión. Si se intenta evitar el sobreajuste eligiendo el conjunto óptimo de características, la selección del modelo se complica, ya que hay un grado de libertad (más o menos) para cada característica, lo que hace posible sobreajustar el criterio de selección de características y acabar con un conjunto de características que es óptimo para esta muestra concreta de datos, pero que ofrece un rendimiento de generalización deficiente. Por eso, si no se realiza la selección de características y se utiliza la regularización, a menudo se obtienen mejores resultados de predicción.
A menudo utilizo Bagging (formar un comité de modelos entrenados en muestras bootstraped del conjunto de entrenamiento) con modelos de regresión de cresta, lo que a menudo proporciona una mejora en el rendimiento, y como todos los modelos son lineales se pueden combinar para formar un único modelo lineal, por lo que no hay golpe de rendimiento en la operación.