Comience con la idea básica de la variación. Su comienzo modelo es la suma de los cuadrados de las desviaciones de la media. El R^2 el valor es la proporción de la variación que se explica por el uso de un modelo alternativo. Por ejemplo, R-cuadrado indica cuánto de la variación en Y usted puede deshacerse de sumando los cuadrados de las distancias a partir de una línea de regresión, en lugar de la media.
Creo que esto es perfectamente claro si tenemos en cuenta que la regresión del problema y de imaginar que la trazada. Imagina un típico diagrama de dispersión donde tienes un predictor X a lo largo del eje horizontal y a una respuesta Y a lo largo del eje vertical.
La media es una línea horizontal en la parcela donde Y es una constante. La Y de la variación es la suma de los cuadrados de las diferencias entre la media de Y, y cada punto de datos. Es la distancia entre la línea media y a cada individuo punto al cuadrado y se suman.
También se puede calcular otra medida de variabilidad después de la línea de regresión del modelo. Esta es la diferencia entre cada punto Y y la recta de regresión. En lugar de cada uno (Y - la media) al cuadrado obtenemos (Y - el punto sobre la línea de regresión) al cuadrado.
Si la línea de regresión es cualquier cosa, sino horizontal, vamos a tener menos distancia total cuando usamos que en lugar de la media-que es la que hay menos variación inexplicable. La relación entre el extra de la variación explicada y la variación original es su R^2. Es la proporción de la variación original en su respuesta que se explica mediante el ajuste de la regresión de la línea.
Ver el (rápido y sucio) imagen de abajo...
Cargado con ImageShack.nosotros.
Aquí hay algunas código R para una gráfica con la media y la línea de regresión trazada para ayudar a visualizar, pero sin algunas notas de ayuda:
data(trees)
plot((trees$Volume~trees$Girth))
abline(lm(trees$Volume~trees$Girth))
abline(lm(trees$Volume~1))