Gran pregunta. Tu intuición era buena. Efectivamente, existe una fuerte relación entre los métodos de regresión lineal y las métricas para medir la similitud entre una línea y un conjunto de puntos.
La correspondencia entre la regresión lineal y las métricas de similitud. Esta es la relación. Dejemos que $d(\ell,S)$ sea una métrica de similitud que mida la similitud entre una línea $\ell$ y un conjunto $S$ de puntos. Entonces, la regresión lineal es básicamente el siguiente problema: dado un conjunto $S$ de puntos, encontrar la línea $\ell$ que minimiza $d(\ell,S)$ . En consecuencia, cada métrica de similitud diferente da lugar a un tipo diferente de regresión lineal. Y, a su vez, de cualquier tipo de regresión lineal, se puede extraer una métrica de similitud correspondiente que el método de regresión está minimizando.
Notación: si $\ell$ es una línea, escribiré $\ell(x)$ para el $y$ -en el lineal correspondiente a $x$ . En otras palabras, trataré $\ell$ en función de $x$ .
Ejemplo 1. La regresión por mínimos cuadrados ordinarios corresponde a la medida de distancia que mencionas: a saber, $d(\ell,S) = \sum_{(x,y) \in S} (\ell(x) - y)^2$ . Así, para cada punto de $S$ consideramos la distancia vertical del punto a la línea $\ell$ y la suma de estos residuos al cuadrado. Pictóricamente, estamos sumando los cuadrados de las longitudes de las líneas naranjas en esta imagen:
Ejemplo 2. Si se hiciera una regresión por mínimos cuadrados ordinarios, pero con el papel de $x$ y $y$ intercambiados, entonces eso correspondería a una métrica de similitud ligeramente diferente: a saber, $d(\ell,S) = \sum_{(x,y) \in S} (\ell^{-1}(y) - x)^2$ . Esto corresponde a tomar la distancia horizontal de cada punto a la línea $\ell$ y sumando estas distancias al cuadrado. Estamos sumando las longitudes al cuadrado las líneas naranjas en esta imagen:
Ejemplo 3. Si se hiciera un análisis de componentes principales (PCA) (también conocido como regresión ortogonal o mínimos cuadrados totales (TLS)), eso correspondería a una medida de distancia ligeramente diferente, a saber, la distancia ortogonal de cada punto a la línea $\ell$ al cuadrado y sumado. Ahora estamos sumando las longitudes al cuadrado de las líneas orangulares de esta imagen:
Resumen hasta ahora. Hay muchas métricas de similitud posibles. La que elijas dependerá de la naturaleza de tu aplicación y de tu modelo de datos.
Cómo elegir una métrica de similitud. De acuerdo, hay muchas métricas de similitud posibles. ¿Cómo elegir cuál utilizar? Como ya se ha sugerido, para responder a esta pregunta, tendrá que tener algún modelo o hipótesis sobre cómo se generaron sus datos.
Los mínimos cuadrados ordinarios parten del siguiente modelo: suponen que, para cada punto $(x_i,y_i)$ , $y_i$ se generó como una función probabilística (estocástica) de $x_i$ . Supone que el proceso fue algo así: hay alguna línea $\ell$ (que no conocemos a priori), y dada la entrada $x_i$ primero calculamos $\ell(x_i)$ (el $y$ -en la línea correspondiente a $x_i$ ), entonces generamos aleatoriamente algún valor de ruido/error $e_i$ de una distribución normal con media 0 y desviación estándar $\sigma$ (donde $\sigma$ no se conoce a priori), y luego fijamos $y_i = \ell(x_i) + e_i$ . Dado que cada $e_i$ se supone que es gaussiana iid, una medida razonable de la cercanía de una línea hipotética $\ell'$ se ajusta a este modelo es tomar la suma de los cuadrados de las $e_i$ valores. Para la línea correcta $\ell$ Tendremos $d(\ell, S) = \sum_i e_i^2$ que tiene la expectativa $n \sigma^2$ . Para una línea incorrecta $\ell'$ Tendremos $d(\ell', S) = \sum_i (e_i \pm \ell'(x_i)-\ell(x_i))^2$ que tiene expectativa $n \sigma^2 + \sum_i (\ell'(x_i)-\ell(x_i))^2$ que se puede notar que es más grande que la expectativa para $d(\ell, S)$ . En otras palabras, partiendo de un modelo estocástico concreto sobre cómo se generaron los datos, OLS utiliza una medida de distancia concreta que se adapta bien a la comprobación del grado de ajuste de los datos observados al modelo supuesto.
Por supuesto, este no es el único modelo plausible de cómo sus puntos podrían haberse generado aleatoriamente (en función de la línea $\ell$ ). Dado un proceso diferente, podríamos acabar con una métrica de similitud diferente.
Pruebas de hipótesis. Por último, permíteme mencionar un tema más que no has sacado a colación, pero que podrías haberlo hecho. Digamos que tienes un modelo estocástico de cómo se generaron aleatoriamente tus puntos. Digamos que la línea $\ell$ es el parámetro de este proceso aleatorio. Entonces otra pregunta interesante que podríamos hacer es: dado el conjunto de puntos observados $S$ , probar la hipótesis de que los puntos $S$ provienen del mencionado proceso aleatorio, utilizando la línea $\ell$ como parámetro. Se podría elaborar una forma de calcular un $p$ -valor de la probabilidad de que $S$ se generaron de acuerdo con esa distribución. Si el $p$ -es muy pequeño, se podría rechazar la hipótesis de que los puntos se generaron a partir de este proceso aleatorio particular con parámetro $\ell$ (a grandes rasgos, esto equivaldría a decir que los puntos $S$ no parecen corresponder a la línea $\ell$ ). Si el $p$ -no es demasiado pequeño, se puede proceder como si la hipótesis fuera potencialmente verdadera (a grandes rasgos, esto equivaldría a decir que los puntos $S$ son consistentes con la hipótesis de que provienen de su modelo aleatorio con línea $\ell$ ). Así pues, las pruebas de hipótesis podrían ser otra forma de, a grandes rasgos, medir si los puntos parecen ser consistentes con alguna línea en particular.
Créditos. Agradezco a @JD Long por estas excelentes fotos. Ver también su respuesta explicando las diferentes formas de regresión para obtener más información.