10 votos

Regresión lineal para minimizar el máximo de los residuos

Sabemos que regresión lineal simple hará lo siguiente:

Supongamos que hay $n$ puntos de datos $\{y_i,x_i\}$ , donde $i=1,2,\dots,n$ . El objetivo es encontrar la ecuación de la recta

$y=\alpha+\beta x$

que proporciona el mejor ajuste para los puntos de datos. Aquí "mejor" se entenderá como en el enfoque de mínimos cuadrados: una línea tal que minimice la suma de los residuos cuadrados del modelo de regresión lineal. En otras palabras, los números $\alpha$ y $\beta$ resolver el siguiente problema de minimización:

Encuentre $\underset{{\alpha,\beta}}{\arg\min}\;Q(\alpha,\beta)$ , donde $Q(\alpha,\beta)=\sum\limits_{i=1}^n(y_i-\alpha-\beta x_i)^2$

Mi pregunta es: si quiero minimizar la siguiente función, cómo conseguir $\alpha, \beta$ :

$\underset{{\alpha,\beta}}{\arg\min}\;P(\alpha,\beta)$ , donde $P(\alpha,\beta)=\max\limits_{1\leq i\leq n} |y_i-\alpha-\beta x_i|$

9voto

Martin OConnor Puntos 116

Usted está preguntando acerca de hacer una regresión lineal con el $L_{\infty}$ o, en su defecto, la norma Criterio de aproximación de Chebyshev en lugar del habitual $L_2$ que minimiza la suma de los residuos al cuadrado.

No hay una buena fórmula que te dé $\alpha$ y $\beta$ . En cambio, el enfoque estándar consiste en obtener $\alpha$ y $\beta$ como la solución a un problema de programación lineal. La formulación es

$$\text{Minimize } r$$

con sujeción a $$r - (y_i - \alpha - \beta x_i ) \geq 0, \text{ for each } i,$$ $$r + (y_i - \alpha - \beta x_i ) \geq 0, \text{ for each } i.$$ Las variables son $r$ (el residuo máximo), $\alpha$ y $\beta$ y el $(x_i, y_i)$ son los valores de los datos que se convierten en parámetros en la formulación del LP.

Aquí está un ejemplo aunque el autor parte de un modelo con $\alpha = 0$ .

2voto

JiminyCricket Puntos 143

Una preocupación sería que al utilizar este enfoque se está imponiendo una relación específica entre la media $np$ y la varianza $np(1-p)$ de la respuesta. Para el tipo de encuestas en las que se suelen utilizar las escalas de Likert -por ejemplo, hay que elegir una de las cinco categorías entre "Muy de acuerdo" y "Muy en desacuerdo" con respecto a una u otra afirmación- me parece que no es correcto. Por ejemplo, yo esperaría que una escala de diez puntos diera más o menos la misma distribución de respuestas que una escala de cinco puntos si se colapsan los pares de categorías adyacentes: para una respuesta $y$ y común $p$ $$\Pr_{n=4}(Y=y)\neq\Pr_{n=9}(Y=2y)+\Pr_{n=9}(Y=2y+1)$$ Recuerdo algunas investigaciones que parecen confirmarlo: Coelho & Esteves (2006), "La elección entre una escala de cinco y diez puntos en el marco de la medición de la satisfacción del cliente".

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X