En definitiva, la regresión logística tiene connotaciones probabilísticas que van más allá del uso del clasificador en ML. Tengo algunas notas sobre la regresión logística aquí .
La hipótesis en la regresión logística proporciona una medida de incertidumbre en la ocurrencia de un resultado binario basado en un modelo lineal. El resultado está acotado asintóticamente entre $0$ y $1$ y depende de un modelo lineal, de forma que cuando la recta de regresión subyacente tiene valor $0$ la ecuación logística es $0.5 = \frac{e^0}{1+e^0}$ , proporcionando un punto de corte natural a efectos de clasificación. Sin embargo, es a costa de desechar la información de probabilidad en el resultado real de $h(\Theta^T\bf x) =\frac{e^{\Theta^T \bf x}}{1 +e^{\Theta^T\bf x}}$ que suele ser interesante (por ejemplo, la probabilidad de impago de un préstamo en función de los ingresos, la puntuación de crédito, la edad, etc.).
El algoritmo de clasificación del perceptrón es un procedimiento más básico, basado en productos de puntos entre ejemplos y pesos . Cuando un ejemplo se clasifica erróneamente, el signo del producto punto está en desacuerdo con el valor de la clasificación ( $-1$ y $1$ ) en el conjunto de entrenamiento. Para corregirlo, el vector de ejemplos se sumará o restará iterativamente del vector de pesos o coeficientes, actualizando progresivamente sus elementos:
Vectorialmente, el $d$ características o atributos de un ejemplo son $\bf x$ Y la idea es "pasar" el ejemplo si:
$\displaystyle \sum_{1}^d \theta_i x_i > \text{theshold}$ o...
$h(x) = \text{sign}\big(\displaystyle \sum_{1}^d \theta_i x_i - \text{theshold}\big)$ . La función de signo da como resultado $1$ o $-1$ en lugar de $0$ y $1$ en la regresión logística.
El umbral se absorberá en el sesgo coeficiente, $+ \theta_0$ . La fórmula es ahora:
$h(x) = \text{sign}\big(\displaystyle \sum_0^d \theta_i x_i\big)$ o vectorizado: $h(x) = \text{sign}(\theta^T\bf x)$ .
Los puntos mal clasificados tendrán $\text{sign}(\theta^T\bf x) \neq y_n$ lo que significa que el producto punto de $\Theta$ y $\bf x_n$ serán positivos (vectores en la misma dirección), cuando $y_n$ es negativo, o el producto punto será negativo (vectores en direcciones opuestas), mientras que $y_n$ es positivo.
He estado trabajando en las diferencias entre estos dos métodos en un conjunto de datos del mismo curso en el que los resultados de las pruebas en dos exámenes distintos están relacionados con la aceptación final en la universidad:
El límite de decisión se puede encontrar fácilmente con la regresión logística, pero fue interesante ver que aunque los coeficientes obtenidos con el perceptrón eran muy diferentes que en la regresión logística, la simple aplicación del $\text{sign}(\cdot)$ a los resultados, ha dado un algoritmo de clasificación igual de bueno. De hecho, la máxima precisión (el límite establecido por la inseparabilidad lineal de algunos ejemplos) se alcanzó en la segunda iteración. Esta es la secuencia de líneas de división de los límites como $10$ iteraciones aproximaron los pesos, partiendo de un vector aleatorio de coeficientes:
La precisión en la clasificación en función del número de iteraciones aumenta rápidamente y se estabiliza en $90\%$ La curva de aprendizaje es consistente con la rapidez con la que se alcanza un límite de decisión casi óptimo en el videoclip de arriba. Este es el gráfico de la curva de aprendizaje:
El código utilizado es aquí .