6 votos

¿Por qué se usa el coeficiente de determinación para evaluar el ajuste de una línea de mínimos cuadrados?

El coeficiente de determinación es$$r^2 = 1 - \frac{SS_\text{res}}{SS_\text{tot}}$$ where $ SS_ \ text {res} = \ sum_ {i = 1} ^ n (y_i- \ hat {y_i}) ^ 2$ and $ SS_ \ text {tot} = \ sum_ {i = 1} ^ n (y_i - \ overline {y}) ^ 2 $.

¿Por qué se usa esto para evaluar el ajuste de una línea de mínimos cuadrados? ¿Por qué la comparación se basa en mirar$SS_\text{res}/SS_\text{tot}$ en lugar de decir$SS_\text{res}/n$ u otra cosa?

5voto

Nick Cox Puntos 22819

Esta es una pregunta muy amplia, aunque no parezca ser así. Dos comentarios:

  1. Usted dice que "El coeficiente de determinación es" pero si la fórmula que dar actúa como una definición de los fundamentos para cualquier persona que no está claro. Me gustaría caracterizan más bien como una de varias informática disponible fórmulas.

  2. Usted pregunta "¿por Qué es esto", sino que confunde o mezcla la pregunta de por qué el coeficiente de determinación se utiliza en todo con la razón por la fórmula particular que mencionas podría ser utilizado.

Para mí, el atractivo de la $R^2$ está en estar (a) una simple y única medida vinculada a el coeficiente de correlación $r$ o un análogo de la que y (b) libre de las unidades de medida de la variable original. En la regresión múltiple, la correlación de que se trate está entre los valores observados y los predichos del modelo.

Las desventajas de $R^2$ son precisamente los mismos puntos: no resumen de la medida puede capturar todas las virtudes y limitaciones de una regresión y a menudo hay mucho punto en el que resume la falta de ajuste en la escala de la respuesta a la medida.

Para ello, $SS_\text{res}/n$ es, contrariamente a su implicación, a menudo se utiliza, si indirectamente. Resumiendo los residuos por medio de la plaza está en la base de una buena idea, aunque su raíz cuadrada es mejor en las dimensiones de los terrenos y por razones técnicas detalladas no es un caso para el uso de un divisor, que es el tamaño de la muestra menos el número de parámetros de módulos. (Buscando en el detallado del patrón de los residuos es generalmente una idea aún mejor.)

Más ampliamente, $R^2$ es a menudo sobre-valorada en que un bajo $R^2$ puede ser un logro que vale la pena y un alto $R^2$ un científico o práctico fracaso. Depende mucho de lo que es interesante, útil y posible científicamente o prácticamente.

3voto

El $SS$ puede ser considerado como una suma de la cantidad de variabilidad. El $SS_\text{tot}$ es todos de la variabilidad cuando el modelo más simple se utiliza la media. Observa la ecuación, es la suma de cada cuadrado de la desviación, de todos los que la variabilidad no explicada por la media (cualquier valor exactamente en la media contribuye 0 a $SS$). El $SS_\text{res}$ es la variabilidad que sus modelos más complejos no explicar, lo que es un modelo. Por ejemplo, si usted tiene dos medios en los modelos más complejos deben explicar más de los datos / tienen un menor $SS$. Por lo tanto, $SS_\text{res}/SS_\text{tot}$ es la proporción de variabilidad que no se explicar. Si usted restar lo inexplicable de 1 a continuación, usted consigue la porción restante de la variabilidad que hizo explicar.

Significa algo. La razón por la que usan es porque significa algo sensato y útil. $SS_\text{res}/n$, o algún otro valor, puede significar algo, pero no la misma cosa. Si usted viene para arriba con un número para sus propósitos, a continuación, utilizar ese.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X