19 votos

¿Por qué la regresión lineal utiliza una función de costo basada en la distancia vertical entre la hipótesis y el punto de datos de entrada?

Supongamos que tenemos los puntos de datos de entrada (predictor) y salida (respuesta) A, B, C, D, E y queremos ajustar una línea a través de los puntos. Este es un problema simple para ilustrar la pregunta, pero también se puede extender a dimensiones superiores.

Declaración del Problema

ingresar descripción de la imagen aquí

El ajuste mejor actual o hipótesis está representado por la línea negra de arriba. La flecha azul ($\color{blue}\rightarrow$) representa la distancia vertical entre el punto de datos y el ajuste mejor actual, dibujando una línea vertical desde el punto hasta que intersecta la línea.

La flecha verde ($\color{green}\rightarrow$) se traza de manera que sea perpendicular a la hipótesis actual en el punto de intersección, y por lo tanto representa la menor distancia entre el punto de datos y la hipótesis actual. Para los puntos A y B, se traza una línea de modo que sea vertical al mejor supuesto actual y sea similar a una línea que es vertical al eje x. Para estos dos puntos, las líneas azul y verde se superponen, pero no para los puntos C, D y E.

El principio de mínimos cuadrados define la función de costo para la regresión lineal trazando una línea vertical a través de los puntos de datos (A, B, C, D o E) hacia la hipótesis estimada ($\color{blue}\rightarrow$), en cualquier ciclo de entrenamiento dado, y se representa por

$Función de Costo = \sum_{i=1}^N(y_i-h_\theta(x_i))^2$

Aquí $(x_i, y_i)$ representa los puntos de datos, y $h_\theta(x_i)$ representa la mejor ajuste.

La distancia mínima entre un punto (A, B, C, D o E) está representada por una línea perpendicular dibujada desde ese punto hasta el mejor supuesto actual (flechas verdes).

El objetivo de la función de mínimos cuadrados es definir una función objetivo que, cuando se minimiza, daría lugar a la menor distancia entre la hipótesis y todos los puntos combinados, pero no necesariamente minimizaría la distancia entre la hipótesis y un solo punto de entrada.

**Pregunta**

¿Por qué no definimos la Función de Costo para la regresión lineal como la menor distancia entre el punto de datos de entrada y la hipótesis (definida por una línea perpendicular a la hipótesis) que pasa a través del punto de datos de entrada, como se indica por ($\color{green}\rightarrow$)?

7 votos

La regresión lineal simple asume que no hay error en los valores de las coordenadas x de las observaciones (por ejemplo, porque son manipulaciones experimentales). Si hay errores en el eje x, se pueden tener en cuenta minimizando una función de coste similar a la que propones; esto requiere establecer la relación entre la varianza de los errores en los ejes x e y. Si la relación $=1$, esto equivale a minimizar la distancia perpendicular entre los puntos y la línea (regresión ortogonal). Si la relación $\neq1$ se llama regresión Deming

0 votos

Mira esta publicación en PCA: cerebralmastication.com/2010/09/…

17voto

Neal Puntos 316

Cuando hay ruido tanto en la variable dependiente (errores verticales) como en la variable independiente (errores horizontales), la función objetivo de mínimos cuadrados puede modificarse para incorporar estos errores horizontales. El problema radica en cómo ponderar estos dos tipos de errores. Esta ponderación suele depender de la relación de las varianzas de los dos errores:

  1. Si la varianza del error vertical es extremadamente grande en relación con la varianza del error horizontal, OLS es correcto.
  2. Si la varianza del error horizontal es extremadamente grande en relación con la varianza del error vertical, los mínimos cuadrados inversos (en los que $x$ se regresa en $y$ y el inverso del estimado del coeficiente para $y$ se utiliza como estimado de $\beta$) son apropiados.
  3. Si la relación de la varianza del error vertical a la varianza del error horizontal es igual a la relación de las varianzas de las variables dependientes e independientes, tenemos el caso de regresión "diagonal", en el que un estimado consistente resulta ser la media geométrica de los estimadores de mínimos cuadrados e inversos.
  4. Si la relación de estas varianzas de error es uno, entonces tenemos el caso de regresión "ortogonal", en el que la suma de errores cuadrados medida a lo largo de una línea perpendicular a la línea estimada se minimiza. Esto es lo que tenías en mente.

En la práctica, la gran desventaja de este procedimiento es que la relación de las varianzas de los errores generalmente no se conoce y generalmente no se puede estimar, por lo que el camino a seguir no está claro.

0 votos

Intenté editar para cambiar "dependiente" por "independiente" en la primera oración pero las ediciones deben tener 6 caracteres. ¿Quizás actualizar la respuesta para corregir el error tipográfico?

0 votos

@RyanStout Gracias, y hecho. Creo que insertar espacios te ayudará a resolver eso.

0 votos

Ahora estoy un poco confundido: ¿no son los errores verticales los errores en la variable dependiente (y) y los errores horizontales en la variable independiente (x)?

10voto

Moormanly Puntos 206

Una razón es que $$\sum_{i=1}^N(y_i-h_\theta(x_i))^2$$ es relativamente fácil de calcular y optimizar, mientras que el costo propuesto $$\sum_{i=1}^N \min_{x,y}\big[(y_i-h_\theta(x))^2+(x_i-x)^2\big]$$ tiene un problema de minimización anidado que puede ser bastante difícil dependiendo de la elección de la familia para $h_\theta(x)$.

0 votos

Ese es un buen punto. Estaba pensando en cómo calcular la Función de Costo en general.

0 votos

No estoy segura de cómo evaluar la distancia entre el punto y un plano/superficie no lineal, pero para evaluar la distancia entre un punto y una superficie/plano lineal, es posible que no necesitemos minimización anidada: mathinsight.org/distance_point_plane

0 votos

En segundo lugar, cuando usamos regresión, nuestro objetivo es evaluar los pesos para encontrar el mejor ajuste. Por lo que entiendo, durante el cálculo real, rara vez evaluamos la función de costo, ¿sino alguna derivada de la función de costo?

4voto

user39770 Puntos 9

Bajo el riesgo de ser prosaico, la razón de la función de error es que la interpretación estándar es que el valor de x está dado y se está tratando de describir (o predecir) de la mejor manera el componente y. Por lo tanto, no hay error en 'x'. Por ejemplo, podrías intentar entender (o predecir) el precio de cierre de una acción mañana basándote en el precio de cierre de hoy. De manera similar, uno podría intentar entender la temperatura promedio de mañana en relación con la temperatura promedio de hoy. Obviamente, estos ejemplos son simplistas, pero esa es la idea. Por cierto, algo que la mayoría de la gente no se da cuenta, pero que creo que es evidente a partir de tus ejemplos, es que si se realiza una regresión de y contra x, la línea de regresión no tiene que tener ninguna similitud particular con la regresión de x contra y. La regresión ortogonal es el término para una regresión en la que se intenta encontrar la línea que minimiza la distancia de los puntos de una línea. Por ejemplo, si se intentara entender la relación entre el precio de las acciones de IBM y el precio de las acciones de AAPL, ese sería el método apropiado.

2voto

TontolOne Puntos 16

La versión simplificada es que se asume que X no tiene error. Por lo tanto, si miras el punto E en tu gráfico, por ejemplo, se asume que su coordenada X es precisamente precisa. Normalmente, esto es así cuando podemos controlar X, en otras palabras cuando podemos establecerlo en un valor específico. En ese caso, el único error que puede existir está en la dirección Y, y por eso la función de error / costo solo incluye la dirección Y.

Cuando eso no es el caso, cuando no controlamos X y X puede tener error, las personas incorporan la dirección X en la función de error en algo llamado regresión de tipo II o modelo II, y sus variantes. Puede ser complicado hacer esto si X e Y tienen diferentes escalas, por lo que entonces tienes que pensar en normalizaciones y demás.

1voto

Paul Mulligan Puntos 6

Es cierto que, al ajustar una línea a través de puntos, la distancia ortogonal es la función de pérdida más natural que se puede aplicar a líneas arbitrarias (nota que la distancia en y se vuelve insignificante para líneas perpendiculares al eje x). Este problema es conocido con varios nombres, por ejemplo, "regresión ortogonal", o (el término más utilizado, que yo sepa) "Análisis de Componentes Principales" (PCA). Para una discusión de este problema en dimensiones arbitrarias, ver

Späth: "Ajuste de mínimos cuadrados ortogonales con manifolds lineales." Numerische Mathematik 48, pp. 441–445, 1986

Como @aginensky ya señaló, la idea detrás de la Regresión Lineal no es ajustar una línea a través de puntos, sino predecir valores de y para valores de x dados. Por eso solo se utiliza la distancia en y, que es la precisión de la predicción.

Reformular el problema de ajustar una curva $\vec{x}(t)$ a través de puntos $\vec{p}_i$, $i=1\ldots N$ como un problema de predicción complica las cosas, porque el predictor $t$ es desconocido y hasta cierto punto arbitrario. Para curvas que no sean líneas rectas, este sigue siendo un problema que está sujeto a una investigación activa. Un enfoque posible (incompleto) se describe en el siguiente artículo, que es incompleto porque no proporciona una solución para encontrar una suposición inicial para la curva, sino solo cómo mejorar iterativamente dicha suposición inicial:

Wang, Pottmann, Liu: "Ajuste de curvas B-spline a nubes de puntos mediante minimización de distancia al cuadrado basada en la curvatura." ACM Transactions on Graphics 25.2, pp. 214-238, 2006

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X