He estado revisando la documentación de sklearn pero no soy capaz de entender el propósito de estas funciones en el contexto de la regresión logística. Para decision_function
dice que es la distancia entre el hiperplano y la instancia de prueba. ¿en qué es útil esta información en particular? y ¿cómo se relaciona esto con predict
y predict-proba
¿Métodos?
Respuesta
¿Demasiados anuncios?Recordemos que la forma funcional de la regresión logística es
Esto es lo que devuelve predict_proba
.
El término dentro del exponencial
es lo que devuelve decision_function
. El "hiperplano" al que se refiere la documentación es
Esta terminología es un vestigio de las máquinas de vectores soporte, que estiman literalmente un hiperplano de separación. En el caso de la regresión logística, este hiperplano es una construcción un tanto artificial: es el plano de igual probabilidad, en el que el modelo ha determinado que ambas clases objetivo tienen la misma probabilidad.
En predict
devuelve una decisión de clase utilizando la regla
A riesgo de caer en el error, el predict
La función tiene muy pocos usos legítimos, y considero que utilizarla es un signo de error a la hora de revisar el trabajo de otros. Yo iría tan lejos como para llamarlo un error de diseño en el propio sklearn (el predict_proba
debería haberse llamado a la función predict
y predict
debería haberse llamado predict_class
si es que hay algo).