19 votos

¿Por qué es la regresión sobre la varianza?

Estoy leyendo esta nota.

En la página 2, afirma:

"¿Cuánto de la varianza de los datos se explica por un determinado modelo de regresión?"

"La regresión es una interpretación acerca de la media de los coeficientes; inferencia es acerca de su varianza."

He leído acerca de tales declaraciones en numerosas ocasiones, ¿por qué nos preocupamos acerca de "como parte de la varianza de los datos se explica por el dado por el modelo de regresión?"... más específicamente, ¿por qué "varianza"?

19voto

Niall Puntos 51

¿por qué nos preocupamos acerca de "como parte de la varianza de los datos se explica por el dado por el modelo de regresión?"

Para responder a esto es útil pensar acerca de exactamente lo que significa para un cierto porcentaje de la varianza que se explica por el modelo de regresión.

Deje $Y_{1}, ..., Y_{n}$ ser la variable de resultado. La costumbre de la muestra varianza de la variable dependiente en un modelo de regresión es $$ \frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2 $$ Now let $\widehat{Y}_i \equiv \widehat{f}({\boldsymbol X}_i)$ be the prediction of $Y_i$ based on a least squares linear regression model with predictor values ${\boldsymbol X}_i$. Como se ha demostrado aquí, esta variación de arriba se puede dividir como:
$$ \frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \overline{Y})^2 = \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (Y_i - \widehat{Y}_i)^2}_{{\rm residual \ varianza}} + \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} (\widehat{Y}_i - \overline{Y})^2}_{{\rm explicó \ varianza}} $$

En menos de cuadrados de la regresión, el promedio de los valores de la predicción es $\overline{Y}$, por lo tanto la varianza total es igual al promedio de la diferencia cuadrática entre la observados y los valores predichos (varianza residual), además de la muestra varianza de las predicciones (varianza explicada), que son sólo una función de la ${\boldsymbol X}$s. Por tanto, la "explicó" el desacuerdo puede ser pensado como la variación en $Y_i$ que es atribuible a la variación en ${\boldsymbol X}_i$. La proporción de la varianza en $Y_i$ que es "explicado" (es decir, la proporción de variación en $Y_i$ que es atribuible a la variación en ${\boldsymbol X}_i$) se refiere a veces como $R^2$.

Ahora vamos a utilizar dos ejemplos extremos de dejar claro por qué esta descomposición de la varianza es importante:

  • (1) Los predictores no tienen nada que ver con las respuestas. En ese caso, el mejor unbiased predictor (en el sentido de los mínimos cuadrados) por $Y_i$$\widehat{Y}_i = \overline{Y}$. Por lo tanto la varianza total en $Y_i$ es igual a la varianza residual, y no está relacionada a la variación en los predictores ${\boldsymbol X}_i$.

  • (2) Los predictores son perfectamente relacionada linealmente con la predictores. En ese caso, las predicciones son exactamente correctos y $\widehat{Y}_i = Y_i$. Por lo tanto, no hay ninguna varianza residual y todos los de la varianza en los resultados es la varianza de las predicciones, que son sólo una función de los predictores. Por lo tanto, todos de la varianza en los resultados es simplemente debido a la variación en los predictores ${\boldsymbol X}_i$.

Situaciones con datos reales a menudo se encuentran entre los dos extremos, así como la proporción de la varianza que puede ser atribuido a estas dos fuentes. La más "de la variación explicada" hay - es decir, más de la variación en $Y_i$ que es debido a la variación en ${\boldsymbol X}_i$ - la mejor de las predicciones $\widehat{Y}_{i}$ están trabajando (es decir, la más pequeña de la "varianza residual"), que es otra manera de decir que el de los mínimos cuadrados modelo se ajusta bien.

9voto

Loren Pechtel Puntos 2212

No puedo correr con los perros grandes de estadísticas que han contestado antes que yo, y tal vez mi forma de pensar es ingenuo, pero yo lo veo de esta manera...

Imagínese que usted está en un coche y vas por la carretera y girar el volante a izquierda y derecha y presionando el pedal del acelerador y los frenos frenéticamente. Sin embargo, el coche se mueve a lo largo sin problemas, se ve afectada por sus acciones. Usted sería inmediatamente la sospecha de que usted no estuviera en un coche real, y tal vez si miramos de cerca nos gustaría determinar que usted está en un viaje en el Mundo de Disney. (Si usted está en un coche real, usted estaría en peligro mortal, pero no vamos a ir allí.)

Por otro lado, si usted estaba manejando por la carretera en un coche y girar el volante ligeramente a la izquierda o a la derecha inmediatamente se tradujo en el coche en movimiento, cinta adhesiva los frenos se tradujo en una fuerte desaceleración, mientras se presiona el pedal del acelerador se tiró de nuevo en el asiento. Usted puede sospechar que estaban en un coche deportivo de altas prestaciones.

En general, usted probablemente experimentar algo entre esos dos extremos. El grado en que las variables de entrada (dirección, frenos, gas) afectan directamente el movimiento del auto da una pista acerca de la calidad del coche. Que es, la más de su coche de la varianza en movimiento que está relacionada con sus acciones el mejor el coche, y más que el coche se mueve independientemente de su control la peor del auto.

En una manera similar, usted está hablando acerca de la creación de un modelo para algunas de datos (vamos a llamar a este tipo de datos $y$), basado en algunos otros conjuntos de datos (vamos a llamarlos $x_1, x_2, ..., x_i$). Si $y$ no variar, es como un coche que no se mueve y no hay realmente ningún punto en la discusión de si el coche (modelo) funciona bien o no, así que vamos a suponer $y$ hace variar.

Así como un automóvil, un buen modelo de calidad va a tener una buena relación entre los resultados de la $y$ diferentes y las entradas $x_i$ variable. A diferencia de un coche, el $x_i$ no necesariamente causan $y$ a cambio, pero si el modelo va a ser útil la $x_i$ necesidad de cambio en una relación cercana a $y$. En otras palabras, el $x_i$ explicar parte de la varianza en $y$.

P. S. yo no era capaz de llegar con un Winnie The Pooh analogía, pero he intentado.

P. P. S. [MODIFICAR:] tenga en cuenta que estoy a abordar esta cuestión en particular. No debe confundirse en el pensamiento de que si tienes en cuenta el 100% de la varianza en el modelo funcionará de maravilla. Usted también necesita pensar más ajustada, donde su modelo es tan flexible que se ajusta a los datos de entrenamiento muy de cerca -- incluyendo sus aleatorio peculiaridades y rarezas. Para usar la analogía, usted quiere un coche que tiene una buena dirección y los frenos, pero queremos que funcione bien en el camino, no sólo en la pista de prueba de que usted está utilizando.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X