Supongamos que tenemos los puntos de datos de entrada (predictor) y salida (respuesta) A, B, C, D, E y queremos ajustar una línea a través de los puntos. Este es un problema simple para ilustrar la pregunta, pero también se puede extender a dimensiones superiores.
Declaración del Problema
El ajuste mejor actual o hipótesis está representado por la línea negra de arriba. La flecha azul ($\color{blue}\rightarrow$) representa la distancia vertical entre el punto de datos y el ajuste mejor actual, dibujando una línea vertical desde el punto hasta que intersecta la línea.
La flecha verde ($\color{green}\rightarrow$) se traza de manera que sea perpendicular a la hipótesis actual en el punto de intersección, y por lo tanto representa la menor distancia entre el punto de datos y la hipótesis actual. Para los puntos A y B, se traza una línea de modo que sea vertical al mejor supuesto actual y sea similar a una línea que es vertical al eje x. Para estos dos puntos, las líneas azul y verde se superponen, pero no para los puntos C, D y E.
El principio de mínimos cuadrados define la función de costo para la regresión lineal trazando una línea vertical a través de los puntos de datos (A, B, C, D o E) hacia la hipótesis estimada ($\color{blue}\rightarrow$), en cualquier ciclo de entrenamiento dado, y se representa por
$Función de Costo = \sum_{i=1}^N(y_i-h_\theta(x_i))^2$
Aquí $(x_i, y_i)$ representa los puntos de datos, y $h_\theta(x_i)$ representa la mejor ajuste.
La distancia mínima entre un punto (A, B, C, D o E) está representada por una línea perpendicular dibujada desde ese punto hasta el mejor supuesto actual (flechas verdes).
El objetivo de la función de mínimos cuadrados es definir una función objetivo que, cuando se minimiza, daría lugar a la menor distancia entre la hipótesis y todos los puntos combinados, pero no necesariamente minimizaría la distancia entre la hipótesis y un solo punto de entrada.
**Pregunta**
¿Por qué no definimos la Función de Costo para la regresión lineal como la menor distancia entre el punto de datos de entrada y la hipótesis (definida por una línea perpendicular a la hipótesis) que pasa a través del punto de datos de entrada, como se indica por ($\color{green}\rightarrow$)?
7 votos
La regresión lineal simple asume que no hay error en los valores de las coordenadas x de las observaciones (por ejemplo, porque son manipulaciones experimentales). Si hay errores en el eje x, se pueden tener en cuenta minimizando una función de coste similar a la que propones; esto requiere establecer la relación entre la varianza de los errores en los ejes x e y. Si la relación $=1$, esto equivale a minimizar la distancia perpendicular entre los puntos y la línea (regresión ortogonal). Si la relación $\neq1$ se llama regresión Deming
0 votos
Mira esta publicación en PCA: cerebralmastication.com/2010/09/…