¿Cómo determinamos cuándo usar una Regresión Logística o un SVM considerando que la variable dependiente es categórica? ¿Cuáles son las condiciones que debemos tener en cuenta antes de decidir entre uno u otro?
- Comparación de SVM y regresión logística (4 respuestas )
Respuestas
¿Demasiados anuncios?La principal diferencia es que la regresión logística solo puede separar clases linealmente separables mientras que el SVM (con el truco del kernel) puede encontrar un límite de decisión con cualquier forma arbitraria. Esto significa que el SVM generalmente logrará separar mejor tus clases (al menos en tu conjunto de entrenamiento) pero es más propenso al sobreajuste.
La regresión logística es también un modelo más simple con menos hiperparámetros para ajustar (cero si no estás utilizando regularización), lo que la hace más fácil de implementar.
A menos que tengas muy buenas intuiciones sobre la separabilidad de tus datos, te sugeriría comenzar ajustando una regresión logística y si no te está proporcionando una separabilidad de clases satisfactoria, entonces intenta con un SVM.
Por otro lado, si descubres que el SVM se está sobreajustando no importa cómo ajustes los hiperparámetros, considera probar con la regresión logística.
Un último punto: la regresión logística devuelve una probabilidad de pertenecer a la clase positiva (todavía necesitas elegir un umbral para convertirla en un clasificador), el SVM simplemente devuelve las clases. El SVM puede darte probabilidades a través de escalado de Platt pero esto puede ser muy lento.