7 votos

Es el valor estimado en una regresión OLS "mejor" que el valor original

El uso de un simple por mínimos cuadrados ordinarios de regresión:

$ Y = \alpha + \beta \veces X$

podemos estimar la variable dependiente $Y$ a través de los parámetros de regresión de $\alpha \text{ and } \beta$.

En qué forma es la estimación de la $Y$ "mejor" que la original $Y$?

12voto

Bill Puntos 3605

En primer lugar, la ecuación de regresión es:

\begin{equation} Y_i = \alpha + \beta X_i + \epsilon_i \end{equation}

No es un término de error, $\epsilon$. Resulta que este término de error es fundamental para responder a tu pregunta. Qué, exactamente, es el término de error en su aplicación? Una interpretación común de la misma es "la influencia de todo, aparte de $X$, que afecta a $Y$." Si esa es tu interpretación de su término de error, a continuación, $Y_i$ es la mejor medida de lo $Y_i$ realmente es.

Por otro lado, en algunos casos raros en que interpretamos el término de error como ser exclusivamente el error de medición---el error inducido por el error del operador en el uso de un instrumento científico o el error viene de la naturaleza limitada de la precisión de un instrumento. En ese caso, el valor "real" de $Y_i$$\alpha+\beta X_i$. En este caso, usted debe utilizar los MODELOS de predicción de $Y_i$, en lugar del valor real de $Y_i$ si $V(\epsilon_i)>V(\hat{\alpha}_{OLS}+\hat{\beta}_{OLS} X_i)$---es decir, si la varianza del error que proviene de la sustitución de $\alpha$ $\beta$ con sus estimadores OLS es menor que la varianza del error de medición.

8voto

Zizzencs Puntos 1358

El valor original no es una estimación (excepto por el hecho de que puede haber un error de medición): es el valor de Y para un tema específico (por ejemplo, persona o lo que sea). El valor de la predicción a partir de la ecuación es una estimación: es una estimación del valor esperado de Y en un valor dado de X.

Vamos a hacer este concreto:

Supongamos que Y es el peso y X es la altura. Digamos que miden y pesan un montón de gente. Digamos que Jill es de 5'0 y 105 libras. Que es su altura y su peso. La ecuación se dará un valor de predicción de peso para una persona que mide 5'0". Que no es el valor predicho para Jill - no es necesario predecir o estimar su peso, usted sabe que la precisión de la escala. Es el valor de la predicción de algunos "típico de 5'0" persona".

8voto

jasonmray Puntos 1303

La ecuación debe ser $$\operatorname{E}(Y)=\alpha+\beta x$$; that is the expected value of $Y$ at the given value of $x$. So, if your model's right & you make enough observations of $S$ at that value of $x$, it tells you what the average value of $$ Y será. En el largo plazo que va a hacer mejor hacer predicciones utilizando el promedio que el valor observado.

4voto

Dreur Puntos 28

Normalmente, la OPERACIÓN no suele ser motivados mediante la comparación de la respuesta estimada, $\hat{Y_i}$, a la respuesta observada $Y_i$. En cambio, si se le da un nuevo conjunto de valores para el factor de predicción de valor de $X_{new}$, el OLS modelo predice lo que la variable dependiente sería la $\hat{Y}_{new}$ en un caso típico.

El punto es que $\hat{Y}_i$ normalmente no se consideran "mejores" que las de $Y_i$, sino un reflejo más preciso de lo que usted espera de $Y$ a estar en un determinado valor de $X$.

Sin embargo, hay situaciones en las que usted puede pensar $\hat{Y}_i$ refleja con mayor precisión la verdad de $Y_i$ (tal vez por una de las demás derivadas de un mal funcionamiento en la recolección de datos). Esto sería altamente dependiente de los detalles de sus datos.

1voto

AdamSane Puntos 1825

No, normalmente, el valor observado un 'valor estimado'.

Sin embargo, a pesar de que el valor observado es, sin embargo, técnicamente es una estimación de la media, en su particular $x$, y tratarla como una estimación de la realidad nos dicen que el sentido en el que OLS es mejor estimación de la media de allí.

En general se habla de regresión se utiliza en la situación en la que si usted fuera a tomar otro ejemplo con el mismo $x$'s, usted podría no obtener los mismos valores para el $y$'s. En la regresión lineal, tratamos la $x_i$ fijo/cantidades conocidas y las respuestas, el $Y_i$ como variables aleatorias (con los valores observados se denota por a $y_i$).

El uso más común de la notación, podemos escribir

$$Y_i = \alpha + \beta x_i + \varepsilon_i$$

The noise term, $\varepsilon_i$, is important because the observations don't lie right on the population line (if they did there'd be no need for regression; any two points would give you the population line); the model for $S$ must account for the values it takes, and in this case, the distribution of the random error accounts for the deviations from the ('true') line.

The estimate of the mean at point $x_i$ for ordinary linear regression has variance

$$\Big(\frac{1}{n} + \frac{(x_i-\bar{x})^2}{\sum(x_i-\bar{x})^2}\Big)\,\sigma^2$$

while the estimate based on the observed value has variance $\sigma^2$.

It's possible to show that for $n$ at least 3, $\,\frac{1}{n} + \frac{(x_i-\bar{x})^2}{\sum(x_i-\bar{x})^2}$ is no more than 1 (but it may be - and in practice usually is - much smaller). [Further, when you estimate the fit at $x_i$ by $y_i$ you're also left with the issue of how to estimate $\sigma$.]

But rather than pursue the formal demonstration, ponder an example, which I hope might be more motivating.

Let $v_f = \frac{1}{n} + \frac{(x_i-\bar{x})^2}{\sum(x_i-\bar{x})^2}$, the factor by which the observation variance is multiplied to get the variance of the fit at $x_i$.

However, let's work on the scale of relative standard error rather than relative variance (that is, let's look at the square root of this quantity); confidence intervals for the mean at a particular $x_i$ will be a multiple of $\sqrt{v_f}$.

So to the example. Let's take the cars data in R; this is 50 observations collected in the 1920s on the speed of cars and the distances taken to stop:

enter image description here

So how do the values of $\sqrt{v_f}$ compare with 1? Like so:

enter image description here

The blue circles show the multiples of $\sigma$ for your estimate, while the black ones show it for the usual least squares estimate. As you see, using the information from all the data makes our uncertainty about where the population mean lies substantially smaller - at least in this case, and of course given that the linear model is correct.

As a result, if we plot (say) a 95% confidence interval for the mean for each value $x$ (including at places other than an observation), the limits of the interval at the various $x$'s are typically small compared to the variation in the data:

enter image description here

This is the benefit of 'borrowing' information from data values other than the present one.

Indeed, we can use the information from other values - via the linear relationship - to get good estimates the value at places where we don't even have data. Consider that there's no data in our example at x=5, 6 or 21. With the suggested estimator, we have no information there - but with the regression line we can not only estimate the mean at those points (and at 5.5 and 12.8 and so on), we can give an interval for it -- though, again, one that relies on the suitability of the assumptions of linearity (and constant variance of the $Y$s y la independencia).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X