21 votos

¿Por qué funciona tan bien el clasificador de regresión de cresta para la clasificación de textos?

Durante un experimento de clasificación de textos, descubrí que el clasificador de crestas generaba resultados que constantemente encabezaban las pruebas entre los clasificadores que se mencionan y aplican más comúnmente para tareas de minería de textos, como SVM, NB, kNN, etc. Sin embargo, no he elaborado sobre la optimización de cada clasificador en esta tarea específica de clasificación de texto, excepto algunos ajustes simples sobre los parámetros.

Este resultado también se mencionó Dikran Marsupial .

Aunque no tengo formación estadística, después de leer algunos materiales en Internet, sigo sin entender las principales razones. ¿Podría alguien aportar alguna información sobre este resultado?

18voto

John Richardson Puntos 1197

Los problemas de clasificación de textos suelen tener una dimensión bastante alta (muchas características), y es probable que los problemas de alta dimensión sean linealmente separables (ya que se pueden separar d+1 puntos en un espacio d-dimensional con un clasificador lineal, independientemente de cómo estén etiquetados los puntos). Por tanto, es probable que los clasificadores lineales, ya sean de regresión de cresta o SVM con un núcleo lineal, funcionen bien. En ambos casos, el parámetro de la cresta o C para la SVM (como menciona tdc +1) controlan la complejidad del clasificador y ayudan a evitar el sobreajuste separando los patrones de cada clase por grandes márgenes (es decir, la superficie de decisión pasa por el medio del hueco entre las dos colecciones de puntos). Sin embargo, para obtener un buen rendimiento, los parámetros de cresta/regularización deben ajustarse correctamente (yo utilizo la validación cruzada leave-one-out porque es barata).

Sin embargo, la razón por la que la regresión ridge funciona bien es que los métodos no lineales son demasiado potentes y resulta difícil evitar el sobreajuste. Puede haber un clasificador no lineal que ofrezca mejores resultados de generalización que el mejor modelo lineal, pero es demasiado difícil estimar esos parámetros con la muestra finita de datos de entrenamiento de que disponemos. En la práctica, cuanto más sencillo sea el modelo, menos problemas tendremos para estimar los parámetros, por lo que la tendencia a sobreajustar será menor y obtendremos mejores resultados.

Otro problema es la selección de características: la regresión ridge evita el sobreajuste regularizando los pesos para que sean pequeños, y la selección del modelo es sencilla, ya que sólo hay que elegir el valor de un único parámetro de regresión. Si se intenta evitar el sobreajuste eligiendo el conjunto óptimo de características, la selección del modelo se complica, ya que hay un grado de libertad (más o menos) para cada característica, lo que hace posible sobreajustar el criterio de selección de características y acabar con un conjunto de características que es óptimo para esta muestra concreta de datos, pero que ofrece un rendimiento de generalización deficiente. Por eso, si no se realiza la selección de características y se utiliza la regularización, a menudo se obtienen mejores resultados de predicción.

A menudo utilizo Bagging (formar un comité de modelos entrenados en muestras bootstraped del conjunto de entrenamiento) con modelos de regresión de cresta, lo que a menudo proporciona una mejora en el rendimiento, y como todos los modelos son lineales se pueden combinar para formar un único modelo lineal, por lo que no hay golpe de rendimiento en la operación.

6voto

A.Schulz Puntos 264

La regresión de cresta, como su nombre indica, es un método de regresión más que de clasificación. Es de suponer que está utilizando un umbral para convertirlo en un clasificador. En cualquier caso, simplemente está aprendiendo un clasificador lineal definido por un hiperplano. La razón por la que funciona es que la tarea en cuestión se puede separar linealmente, es decir, basta con un simple hiperplano para separar las clases. El parámetro "cresta" le permite funcionar en casos que no son completamente separables linealmente o en problemas que tienen un rango deficiente (en cuyo caso la optimización sería degenerada).

En este caso, no hay razón para que otros clasificadores no funcionen también bien, suponiendo que se hayan implementado correctamente. Por ejemplo, el SVM encuentra el "hiperplano de separación óptimo" (es decir, el hiperplano que maximiza el margen, o brecha, entre las clases). El sitio C de la SVM es un parámetro de control de capacidad análogo al parámetro de cresta, que permite algunas clasificaciones erróneas (valores atípicos). Suponiendo que el proceso de selección de parámetros se haya llevado a cabo con diligencia, yo esperaría que los dos métodos produjeran casi exactamente los mismos resultados en un conjunto de datos de este tipo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X