4 votos

Pregunta sobre el ejemplo "SVM-Anova: SVM con selección de características univariante" en Scikit-learn

¿Alguien puede explicarme por qué en el ejemplo de Scikit-learn "SVM-Anova: SVM con selección de características univariadas"?

http://scikit-learn.org/stable/auto_examples/svm/plot_svm_anova.html

cuando usamos todas las características (percentil 100), el modelo tiene una precisión mucho mejor (90%) que cuando usamos, digamos, el 20% superior de las características (20% de precisión).

Estoy confundido porque pienso

1) Solo las primeras 64 características son predictivas

2) Esto es una medida de validación cruzada ya

¿Significa que la selección de características ANOVA ha seleccionado muchas características aleatorias sin relación con la variable dependiente?

3voto

suki Puntos 1

En general, agregar más y más características (incluso si no es necesariamente útil para hacer predicciones) mejoraría la precisión del modelo entrenado. Cuando el número de características sea igual o mayor que el número de muestras utilizadas para el entrenamiento, entonces (no sorprendentemente) se observaría una alta precisión cercana al 100% en el conjunto de entrenamiento (incluso bajo validación cruzada). Esto es simplemente debido al sobreajuste.

Esto se puede ilustrar usando un ejemplo sencillo:

Si tienes dos puntos de datos, puedes ajustar fácilmente una línea que pase por ambos. En este ejemplo, las características serían la pendiente e intercepción de la línea. [número de puntos de datos = número de características = 2]

Por otro lado, si hubiera tres o más puntos no colineales, tendrías que ajustar una regresión por mínimos cuadrados. Como resultado, el modelo lineal tendría una precisión menor al 100%.

Volviendo al ejemplo de scikit-learn en tu consulta:

El conjunto de datos de dígitos tiene 200 muestras con 64 características. Además, se introducen 200 características generadas aleatoriamente para que el conjunto de datos esté en la maldición de la dimensionalidad (es decir, número de características > número de muestras). Por lo tanto, naturalmente se observaría una mayor precisión para el caso del 100 percentil. Recuerda, esta mayor precisión está en detrimento de la generalización.

Si quisieras averiguar qué fracción de las 264 características totales es significativa para la predicción, tendrías que reservar una fracción del conjunto de datos puramente para pruebas (incluso en modo de validación cruzada).

1voto

Chella Puntos 211

El problema es que en la parte superior de los ejemplos dice:

Este ejemplo muestra cómo realizar una selección de características univariante antes de ejecutar un SVC (clasificador de vectores de soporte) para mejorar las puntuaciones de clasificación.

pero el ejemplo no muestra eso, muestra que si tomas el 100% de las características obtienes la puntuación más alta. Lo cual es confuso y contradice la "Maldición de la dimensionalidad". Habría asumido, como el OP, que variables adicionales ruidosas llevarían al sobreajuste que a su vez se capturaría en la validación cruzada y daría una puntuación más baja. Pero no lo hizo.

No encuentro convincente la respuesta de San porque parece no tener en cuenta "la maldición". Más características por sí solas no deberían dar mejores respuestas si se está llevando a cabo una validación cruzada adecuada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X