En mi proyecto quiero crear un modelo de regresión logística para la predicción de la clasificación binaria (1 o 0).
Tengo 15 variables, de las cuales 2 son categóricas, mientras que el resto son una mezcla de continuos y discretos de las variables.
En orden a ajustar un modelo de regresión logística se me ha aconsejado de verificación para una separabilidad lineal utilizando SVM, de tipo perceptrón o de programación lineal. Esto se vincula con las sugerencias hechas aquí con respecto a las pruebas para una separabilidad lineal.
Como un novato en el aprendizaje de máquina entiendo los conceptos básicos acerca de los algoritmos mencionados anteriormente pero conceptualmente tengo problemas para visualizar cómo podemos separar los datos que tiene muchas dimensiones que yo.e 15 en mi caso.
Todos los ejemplos en el material online, suelen mostrar un gráfico 2D de dos variables numéricas (estatura,peso), que muestran una clara diferencia entre categorías y hace que sea más fácil de entender, pero en el mundo real de los datos es generalmente de mucha mayor dimensión. Sigo siendo atraídos hacia el conjunto de datos Iris y tratando de adaptarse a un hyperplane a través de las tres especies y cómo es particularmente difícil, si no imposible, hacerlo entre dos de las especies, las dos clases que se me escapan ahora mismo.
Cómo se logra esto cuando tenemos incluso órdenes superiores de las dimensiones, se supone que cuando nos superen un cierto número de características que se utilizan kernels para asignar un espacio de dimensiones superiores con el fin de lograr esta separación?
También en el fin de la prueba para una separabilidad lineal de lo que es la métrica que se utiliza? Es la exactitud del modelo SVM es decir, la precisión basado en la matriz de confusión?
Cualquier ayuda para la mejor comprensión de este tema, sería muy apreciado. También a continuación se muestra un ejemplo de una parcela de dos variables en mi conjunto de datos que muestra cómo la superposición de estas dos variables.