Actualmente estoy enseñando a mí mismo cómo hacer la clasificación, y específicamente estoy buscando a tres métodos: máquinas de vectores soporte, redes neuronales y regresión logística. Lo que estoy tratando de entender es la razón por la regresión logística nunca iba a funcionar mejor que los otros dos.
Desde mi comprensión de la regresión logística, la idea es ajustar una función logística para el conjunto de los datos. Así que si mis datos son binarios, todos mis datos con etiqueta 0 se debe asignar el valor 0 (o cerca de ella), y todos mis datos con valor 1 se debe asignar el valor 1 (o cerca de ella). Ahora, debido a que la función logística es continua y suave, la realización de esta regresión requiere que todos mis datos para adaptarse a la curva; no hay mayor importancia aplicado a los puntos de datos a cerca de la decisión de la frontera, y todos los puntos de datos contribuyen a la pérdida por diferentes cantidades.
Sin embargo, con máquinas de vectores soporte y redes neuronales, sólo los puntos de datos a cerca de la decisión de la frontera son importantes, siempre como un punto de datos se mantiene en el mismo lado de la decisión de los límites, se contribuirá a la misma pérdida.
Por lo tanto, ¿por qué habría de regresión logística siempre superan a las máquinas de soporte vectorial o redes neuronales, dado que "desperdicio de recursos" en tratar de ajustar una curva a un montón de importancia (fácilmente clasificable) de datos, en lugar de centrarse sólo en la difícil datos en torno a la decisión de la frontera?