15 votos

Intuición de Support Vector Machines y el hiperplano

En mi proyecto quiero crear un modelo de regresión logística para la predicción de la clasificación binaria (1 o 0).

Tengo 15 variables, de las cuales 2 son categóricas, mientras que el resto son una mezcla de continuos y discretos de las variables.

En orden a ajustar un modelo de regresión logística se me ha aconsejado de verificación para una separabilidad lineal utilizando SVM, de tipo perceptrón o de programación lineal. Esto se vincula con las sugerencias hechas aquí con respecto a las pruebas para una separabilidad lineal.

Como un novato en el aprendizaje de máquina entiendo los conceptos básicos acerca de los algoritmos mencionados anteriormente pero conceptualmente tengo problemas para visualizar cómo podemos separar los datos que tiene muchas dimensiones que yo.e 15 en mi caso.

Todos los ejemplos en el material online, suelen mostrar un gráfico 2D de dos variables numéricas (estatura,peso), que muestran una clara diferencia entre categorías y hace que sea más fácil de entender, pero en el mundo real de los datos es generalmente de mucha mayor dimensión. Sigo siendo atraídos hacia el conjunto de datos Iris y tratando de adaptarse a un hyperplane a través de las tres especies y cómo es particularmente difícil, si no imposible, hacerlo entre dos de las especies, las dos clases que se me escapan ahora mismo.

Cómo se logra esto cuando tenemos incluso órdenes superiores de las dimensiones, se supone que cuando nos superen un cierto número de características que se utilizan kernels para asignar un espacio de dimensiones superiores con el fin de lograr esta separación?

También en el fin de la prueba para una separabilidad lineal de lo que es la métrica que se utiliza? Es la exactitud del modelo SVM es decir, la precisión basado en la matriz de confusión?

Cualquier ayuda para la mejor comprensión de este tema, sería muy apreciado. También a continuación se muestra un ejemplo de una parcela de dos variables en mi conjunto de datos que muestra cómo la superposición de estas dos variables.

enter image description here

14voto

Paulius Puntos 369

Voy a tratar de ayudarle a ganar algún sentido de por qué la adición de dimensiones ayuda a un clasificador lineal hacer un mejor trabajo de separación de dos clases.

Imagina que tienes dos continuo predictores $X_1$$X_2$$n=3$, y estamos haciendo una clasificación binaria. Esto significa que nuestros datos se ve algo como esto:

n=3

Ahora imagine que la asignación de algunos de los puntos a la clase 1 y algunos de la clase 2. Tenga en cuenta que no importa cómo nos asignar clases a los puntos que siempre se puede trazar una línea que separa perfectamente las dos clases.

Pero ahora digamos que añadir un nuevo punto:

n=4

Ahora hay asignaciones de estos puntos, a dos clases de tal manera que una línea no puede perfectamente separados de ellos; tal cesión es dada por el colorante en la figura (este es un ejemplo de un XOR patrón, muy útil para tener en cuenta al evaluar los clasificadores). Así que esto nos muestra cómo con $p=2$ variables podemos utilizar un clasificador lineal perfectamente clasificar en ninguno de los tres (no colineales) puntos, pero no podemos, en general, perfectamente clasificar a los 4 que no son puntos colineales.

Pero, ¿qué pasa si ahora añadimos otro predictor $X_3$?

p=3, n=4

Aquí más ligera sombra de los puntos están más cerca del origen. Puede ser un poco difícil de ver, pero ahora con $p=3$ $n=4$ nosotros de nuevo perfectamente puede clasificar cualquier asignación de etiquetas de clase a estos puntos.

El resultado general: con $p$ predictores un modelo lineal que perfectamente puede clasificar cualquier cesión de dos clases de a $p+1$ puntos.

El punto de todo esto es que, si seguimos $n$ fijo y aumentar el $p$ aumentar el número de patrones que nos pueden separar, hasta llegar al punto donde perfectamente podemos clasificar cualquier asignación de etiquetas. Con el kernel de SVM nos implícitamente ajuste de un clasificador lineal en un espacio de alta dimensión, así que esta es la razón que muy rara vez tienen que preocuparse acerca de la existencia de una separación.

Para un conjunto de posibles clasificadores $\mathscr F$, si para una muestra de $n$ puntos existen funciones en $\mathscr F$ que perfectamente puede clasificar cualquier asignación de etiquetas a estos $n$ puntos, podemos decir que $\mathscr F$ puede romperse n puntos. Si $\mathscr F$ es el conjunto de todos los clasificadores lineales en $p$ variables, a continuación, $\mathscr F$ puede hacer añicos a a $n=p+1$ puntos. Si $\mathscr F$ es el espacio de todas las funciones medibles de $p$ variables, a continuación, puede romper cualquier número de puntos. Este concepto de quebranto, que nos habla de la complejidad de un conjunto de posibles clasificadores, proviene de la teoría del aprendizaje estadístico y puede ser utilizado para hacer declaraciones acerca de la cantidad de sobreajuste que un conjunto de clasificadores puede hacer. Si usted está interesado en que le recomiendo Luxburg y Schölkopf "Estadística de Aprendizaje Teoría: Modelos, Conceptos y Resultados" (2008).

8voto

user2514608 Puntos 11

Es fácil cometer un error cuando usted toma su intuición acerca de las bajas dimensiones de los espacios y aplicarlo a los altos espacios dimensionales. Su intuición es exactamente al revés en este caso. Resulta ser mucho más fácil encontrar una separación de hyperplane en el espacio dimensional superior que en la inferior del espacio.

Aunque cuando se mira en cualquiera de los dos pares de variables, el rojo y el azul de las distribuciones se solapan, cuando se mira a las 15 variables a la vez es muy posible que no se superponen.

2voto

smci Puntos 367

Usted tiene 15 variables, pero no todos ellos son igualmente importantes para la discriminación de la variable dependiente (algunos de ellos podrían incluso ser casi irrelevantes).

Análisis de Componentes principales (PCA) vuelve a calcular una base lineal de los 15 variables, y los pedidos, de tal manera que los primeros componentes, por lo general explican la mayor parte de la varianza. Así que esto permite reducir un 15 dimensiones a (digamos) un 2,3,4 o 5 dimensiones del problema. Por lo tanto se hace trazado más intuitiva; normalmente se pueden usar dos o tres ejes numéricos (o de alta cardinalidad ordinal) de las variables, a continuación, utilice el marcador de color, forma y tamaño de tres dimensiones extra (tal vez más si usted puede combinar de baja cardinalidad de los números ordinales). Así conspirar con los 6 más importantes de la PC debe darle una visualización más clara de su decisión de superficie.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X