44 votos

SVM, el Sobreajuste, la maldición de la dimensionalidad

Mi conjunto de datos es pequeño (120 muestras), sin embargo el número de características que son de gran tamaño varía de (1000-200,000). Aunque yo estoy haciendo la selección de características para elegir un subconjunto de características, puede ser que todavía overfit.

Mi primera pregunta es, ¿cómo SVM manejar el sobreajuste, en todo caso.

En segundo lugar, como puedo estudiar más acerca de sobreajuste en el caso de la clasificación, llegué a la conclusión de que incluso los conjuntos de datos con pequeño número de características puede overfit. Si no tenemos cuenta en correlación a la clase de la etiqueta, el sobreajuste se lleva a cabo de todos modos. Así que ahora estoy preguntando cuál es el punto de clasificación automática si no podemos encontrar las características adecuadas para una clase de etiqueta. En el caso de la clasificación de documentos, esto significaría manualmente la elaboración de un diccionario de sinónimos de palabras que se relacionan con las etiquetas, lo que consume mucho tiempo. Supongo que lo que estoy tratando de decir es que, sin escoger el derecho de las características es muy difícil construir un modelo generalizado ?

También, si los resultados experimentales no muestran que los resultados han de baja/no sobreajuste se vuelve sin sentido. Es allí una manera de medir ?

49voto

John Richardson Puntos 1197

En la práctica, la razón por la que SVMs tienden a ser resistentes a la sobre-ajuste, incluso en los casos donde el número de atributos es mayor que el número de observaciones, es que utiliza la regularización. Lo clave para evitar el exceso de ajuste se encuentra en cuidado de optimización del parámetro de regularización, $C$, y en el caso de no-lineal de las SVMs, la cuidadosa elección de kernel y la sintonización de los parámetros del kernel.

La SVM es un aproximado de la implementación de un obligado en la generalización de error, que depende del margen (fundamentalmente de la distancia a partir de la decisión de límite a la más cercana patrón de cada clase), pero es independiente de la dimensionalidad del espacio de características (es por eso que con el kernel truco para asignar los datos en un muy alto dimensiones del espacio no es una mala idea de lo que podría parecer). Así que , en principio, SVMs debe ser altamente resistente a la sobre-ajuste, pero en la práctica esto depende de la cuidadosa selección de $C$ y los parámetros del kernel. Lamentablemente, ajuste también puede ocurrir con bastante facilidad a la hora de optimizar el hyper-parámetros así, que es mi principal área de investigación, ver

G. C. Cawley y N. L. C. Talbot, evitar el exceso de ajuste en el modelo de selección a través de regularización Bayesiana de la hiper-parámetros, Diario de Aprendizaje de la Máquina de la Investigación, volumen 8, páginas 841-861, abril de 2007. (www)

y

G. C. Cawley y N. L. C. Talbot, Sobre-ajuste en el modelo de selección y posterior sesgo de selección en la evaluación de desempeño, Diario de Aprendizaje de la Máquina de la Investigación, 2010. La investigación, vol. 11, pp 2079-2107, julio de 2010. (www)

Tanto de aquellos documentos de uso el kernel de regresión ridge, en lugar de la SVM, pero el mismo problema se plantea la misma facilidad con la SVMs (también similar límites se aplican a la RRK, así que no hay mucho para elegir entre ellos en la práctica). De tal manera, SVMs no soluciona realmente el problema de la sobre-ajuste, que acaba de desplazar el problema de ajuste del modelo para la selección de modelo.

A menudo es una tentación para hacer la vida un poco más fácil para la SVM mediante la realización de algún tipo de función de selección de primero. Esto generalmente lo hace peor, ya que a diferencia de la SVM, cuentan con algoritmos de selección tienden a mostrar más adecuado ya que el número de atributos aumenta. A menos que usted desea saber cuales son los informativos atributos, por lo general es mejor omitir la selección de la función de paso y sólo el uso de regularización para evitar la sobre-ajuste de los datos.

En definitiva, no hay ningún problema inherente con el uso de un SVM (u otros de regularización, modelo, tales como la regresión ridge, LARS, Lazo elástico de la red, etc.) en un problema con 120 observaciones y miles de atributos, siempre que la regularización de los parámetros se han ajustado correctamente.

10voto

Craig Trader Puntos 8924

Voy a empezar con la segunda y última pregunta.

El problema de la generalización es obviamente importante, porque si los resultados de aprendizaje de la máquina no se puede generalizar, entonces ellos son completamente inútiles.

Los métodos para asegurar la generalización provienen de las estadísticas. Solemos asumir, que los datos generados a partir de algunos de distribución de probabilidad que se origina en la realidad. Por ejemplo, si usted es un macho nacido en el año 2000, entonces hay una distribución de probabilidad ¿cuál es su peso / altura / color de los ojos cuando llegue a 10, que resulta de la disposición del gen de la piscina, en el año 2000, posibles factores ambientales, etc. Si tenemos un montón de datos, se puede decir algo acerca de los subyacentes de las distribuciones, por ejemplo, que con una alta probabilidad de que se de gauss o multinomial. Si hemos imagen precisa de las distribuciones, a continuación, dada la altura , el peso y el color de los ojos de un niño de 10 años de edad, hijo de 2010, podemos obtener una buena aproximación de la probabilidad de el niño, el ser masculino. Y si la probabilidad es cercana a 0 o 1, podemos conseguir un buen tiro en lo que los niños de sexo realmente es. La parte más importante de todo esto es: asumimos que hay una cierta distribución de probabilidad que genera la capacitación de los datos, los datos de prueba, y los datos del mundo real nos gustaría utilizar nuestro algoritmo.

Más formalmente, por lo general tratamos de decir que si la formación de error es:$k$, con alta probabilidad ($\delta$) el error en algunos de los datos generados a partir de la misma distribución será menor que $k + \epsilon$. No se conocen las relaciones entre el tamaño del conjunto de entrenamiento, epsilon y la probabilidad de error de la prueba superior a $k+ \epsilon$. El enfoque que he introducido aquí es conocido como Probablemente Aproximadamente Correcto Aprendizaje, y es una parte importante de la teoría del aprendizaje computacional en la que se aborda el problema de la generalización de los algoritmos de aprendizaje. También hay otra serie de factores que pueden reducir el epsilon y aumento de delta en los límites, es decir,. la complejidad del espacio de hipótesis.

Ahora, de vuelta a la SVM. Si usted no los uso, los granos, o el uso de kernels que mapa en finito dimensionales de los espacios, de los llamados de Vapnik-Chervonenkis dimensión, que es una medida de espacio de hipótesis de la complejidad, es finito, y con eso y la formación suficiente ejemplos que usted puede conseguir que, con alta probabilidad de que el error sobre el conjunto de prueba no será mucho más grande que el error sobre el conjunto de entrenamiento. Si el uso de kernels que mapa en dimensiones infinitas espacios de características, entonces el Vapnik-Chervonenkis dimensión es infinito así, y lo que es peor las muestras de formación por sí sola no puede garantizar el buen generalización, no importa el número de ellos. Afortunadamente, el tamaño de la margen de un SVM llegar a ser un buen parámetro para garantizar la generalización. Con gran margen y el conjunto de entrenamiento, se puede garantizar que el error de la prueba no será mucho más grande que la formación de error así.

8voto

Jasmine D Puntos 1

Hay al menos dos fuentes principales de sobreajuste que puede considerar.

  1. El sobreajuste de un algoritmo, el cual se ha inferido demasiado de las muestras de formación. Este es el mejor protegidos contra empíricamente mediante el uso de una medida de la capacidad de generalización del modelo. La validación cruzada es una de esas método popular.

  2. El sobreajuste debido a que la distribución subyacente es submuestreada. Por lo general, hay poco que se puede hacer acerca de esto a menos que usted puede recoger más datos o agregar dominio de conocimiento sobre el problema a su modelo.

Con 120 muestras y un gran número de características que son muy propensos a caer mal de 2 y también pueden ser propensos a 1.

Usted puede hacer algo acerca de 1 por medio de la cuidadosa observación de los efectos de la complejidad del modelo en la prueba y de capacitación de los errores.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X