Actualmente estoy estudiando el aprendizaje automático con el libro Reconocimiento de patrones y aprendizaje automático (Bishop, 2006) y tenía una pregunta sobre la búsqueda de la distancia entre el origen y una función discriminante lineal. Para quien tenga curiosidad, esto es del capítulo 4.1: Funciones discriminantes.
El libro comienza dando una función discriminante lineal en la forma típica de:
$$y(\mathbf{x}) = \mathbf{w}^T\mathbf{x} + w_0$$
con $\mathbf{x}$ siendo el vector de entrada, $\mathbf{w}$ el vector de pesos, y $w_0$ el término de sesgo.
La parte concreta del libro que me cuesta entender es:
... si $\mathbf{x}$ es un punto de la superficie de decisión, entonces $y(\mathbf{x}) = 0$ por lo que la distancia normal desde el origen a la superficie de decisión viene dada por
$$\frac{\mathbf{w}^T\mathbf{x}}{\Vert \mathbf{w} \Vert} = -\frac{w_0}{\Vert \mathbf{w} \Vert}$$
Por lo tanto, vemos que el parámetro de sesgo $w_0$ determina la ubicación de la superficie de decisión.
La razón por la que me cuesta entender esto es quizás mi falta de comprensión del álgebra fundamental, pero mi recuerdo de la distancia entre una línea $ax + by + c = 0$ y un punto $(x_0, y_0)$ es:
$$d = \frac{| ax_0 + by_0 + c |}{\sqrt{a^2 + b^2}}$$
y por lo tanto, si se introducen los valores de forma adecuada, se obtendrá
$$d = \frac{|\mathbf{w}x_0 - y_0 + w_0 |}{\sqrt{\mathbf{w}^T\mathbf{w} + 1}}$$
asumiendo que $\mathbf{x} = (x_0, y_0)$ .
A juzgar por la ecuación del bloque destacado, parece que la distancia del origen a la recta es $\mathbf{w}^T \mathbf{x}$ y la distancia "normalizada" se divide por $\Vert \mathbf{w} \Vert$ . Tampoco me queda claro por qué elegiríamos el vector de pesos para normalizar.
Supongo que mi pregunta podría resumirse en:
- ¿Cómo se ha obtenido la ecuación de la distancia? ¿Estoy pensando de forma demasiado unidimensional con la ecuación de la distancia que he utilizado?
- ¿Por qué hemos elegido normalizar por el vector peso?
Se agradece cualquier consejo o comentario. Gracias de antemano.