5 votos

$R^2$ de la regresión lineal, sin variación en la variable de respuesta

Supongamos que deseo para adaptarse a $\hat{y} = \beta_0 + \beta_1x$ donde los datos son los siguientes:

x = 0.0, 0.1, 0.2, 0.3, 0.4
y = 0.0, 0.0, 0.0, 0.0, 0.0

Claramente, $\hat{\beta_1} = 0$$\hat{\beta_0} = 0$. Pero, ¿qué es $R^2$ en esta instancia?

Supongamos que calcular:

$$r = \frac{n S_{xy} - S_xS_y}{\sqrt{(nS_{xx} - S_x^2) (nS_{yy} - S_y^2)}}$$

or,

$$R^2 = 1 - \frac{SS_{res}}{SS_{tot}}$$

Then both will be NaN/Undefined since the denominator in both instances will be zero.

So, for this particular dataset, is $R^2$ en realidad se definen? Me atrevería a adivinar que debe ser 1, dado que los datos se ajusta el modelo a la perfección?

7voto

Silverfish Puntos 6909

Los siguientes grácos son acompañados por sus producto-momento de Pearson coeficientes de correlación (crédito de la imagen):

Pearson correlation for various scatter plots

Si los puntos se encuentran exactamente en una línea inclinada hacia arriba, a continuación, la correlación de Pearson es de +1, si se encuentran exactamente en una línea inclinada hacia abajo la correlación es -1. Pero observe que la línea horizontal tiene una indefinido de correlación.

A primera vista se podría esperar que este va a ser cero, como un compromiso entre +1 y -1. Usted puede haber pensado que desde correlación positiva significa "como una variable aumenta, la otra tiende a aumentar", mientras que la correlación negativa significa "como una variable aumenta, los demás tiende a disminuir", el hecho de que $Y$ ni tiende a aumentar ni disminuir como $X$ aumenta significa que $r=0$. Esa idea es correcta para las otras parcelas etiquetados $r=0$, pero todos ellos mostraron variación en $Y$. La correlación es simétrica: la correlación entre el $X$ $Y$ es la misma que entre $Y$$X$. Cambiando las cosas, en el $r=0$ parcelas vemos que como $Y$ aumenta, $X$ ni tiende a aumentar ni disminuir. Pero en nuestro caso lo que ocurre a $X$ $Y$ cambios? Simplemente no lo sabemos! Ciertamente no podemos reclamar (como $r=0$ implicaría) que $X$ no tienden a aumentar ni disminuir. Nunca tuvimos la oportunidad de ver, porque $Y$ nunca variadas. Intuitivamente, no hay manera de que podamos determinar la correlación de los datos disponibles.

Más técnicamente, la consideración de la fórmula para el PMCC debe aclarar las cosas:

$$r = \frac{\text{Covariance of X and Y}}{\text{SD of X} \times \text{SD of Y}}$$

donde "SD" representa la desviación estándar. En un completamente horizontal de la línea, la desviación estándar de $Y$ es cero debido a que la variable no varía en absoluto. Así que tenemos cero en el denominador. También desde $X$ $Y$ no puede co-varían, entonces la covarianza es cero, y el numerador es cero también. Por lo tanto la fracción es $\frac{0}{0}$ que es una forma indeterminada, y por lo que el coeficiente de correlación no está definido.

En un modelo de regresión lineal simple (sólo una respuesta y una variable predictora más una intercepción), el coeficiente de determinación ( $R^2$ es simplemente el cuadrado de $r$, el PMCC entre el$X$$Y$. Como era de esperar, esto no va a ser definido. Esto es intuitivo si pensamos en $R^2$ como la proporción de la varianza explicada - aquí la variable de respuesta no tiene ninguna variación, por lo que podemos explicar 0 de 0 varianza, la cual, como proporción nos trae de vuelta a la forma indeterminada $\frac{0}{0}$.

Esta conclusión es cierto independientemente de si los datos registrados son todos de idéntica a cero, o de forma idéntica a algún otro número, en tanto que daría una línea horizontal en un gráfico de $Y$ contra $X$. Tenga en cuenta que puede haber una diferencia entre los "verdaderos" valores de$Y$, y los que se han registrado en el conjunto de datos al nivel especificado de precisión. Es posible que en un caso como el tuyo que los valores correctos de $Y$ todas ronda de 0.0 a un decimal, pero si hemos tenido acceso a ellos para la veracidad de los datos, podemos ser capaces de observar muy pequeñas desviaciones sobre 0. Si ese fuera el caso, entonces el real PMCC y coeficiente de determinación ambos existen, y (i) ser aproximadamente igual a cero si las pequeñas desviaciones eran sólo "ruido", (ii) ser cualquier cosa, hasta e incluyendo 1 si las pequeñas desviaciones formado una tendencia creciente indiscernible en el actual nivel de precisión, o (iii) ser cualquier cosa, hasta e incluyendo la $r = -1$ $R^2 = 1$ si se formaron en la actualidad indiscernible tendencia decreciente.

En esta respuesta sólo he considerado el caso de la regresión lineal simple, donde la respuesta depende de una variable explicativa. Pero el argumento también se aplica a la regresión múltiple, donde hay varias variables explicativas. Voy a asumir que el modelo incluye un término de intersección, ya cayendo la intersección rara vez es una buena idea e incluso con un modelo sin intercepto, es poco probable que usted desea calcular el $R^2$. Tan largo como el intercepto se incluye en el modelo, a continuación, $R^2$ es simplemente el cuadrado de la correlación múltiple coeficiente de $R$, que es el PMCC entre los valores observados de la respuesta $Y$ y los valores medidos por el modelo. Si $Y$ no muestra variación (al menos para el grabado de precisión), a continuación, las mismas consideraciones evitar que el cálculo de $R$ y, por tanto,$R^2$.

2voto

Dipstick Puntos 4869

Como $R^2$ es "de varianza explicada", entonces como $0 = 0 + 0 \times x$ de la varianza de 0, el mismo que la varianza de $y$, por lo que podríamos pensar en él como el 100% de varianza explicada, es decir,$R^2 = 1$. Por otro lado, como se nota $0/0$ es indeterminado y no tiene sentido, ya que este modelo no lo hace cualquiera. Como goangit ha mencionado, este tipo de modelo no cumple los criterios para la regresión y ni siquiera es una función lineal de la $x$, sino más bien una función constante, por lo que, por definición, esto no es un problema de regresión.

0voto

goangit Puntos 433

Para el Modelo Lineal General para ser adecuado los datos deben cumplir con ciertos criterios:

  1. La media de respuesta es una función lineal de los predictores.
  2. Modelo de residuos son condicionalmente independientes.
  3. Modelo de los residuos están distribuidos con media condicional cero.
  4. Modelo de residuos han constante de la varianza condicional.
  5. Modelo de residuos son condicionalmente normal en la distribución.

La respuesta que usted describe no cumple con (al menos) criterio 5, por lo que el Modelo Lineal General no se aplica a este ejemplo.

Como se discute en los comentarios, esto no impide que el cálculo de la RSS, el que ya se ha señalado es 0/0, una forma indeterminada.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X