39 votos

¿Cuál es la diferencia entre la varianza y el error medio al cuadrado?

Me sorprende que esto no se haya preguntado antes, pero no encuentro la pregunta en stats.stackexchange.

Esta es la fórmula para calcular la varianza de una muestra con distribución normal:

$$\frac{\sum(X - \bar{X}) ^2}{n-1}$$

Esta es la fórmula para calcular el error cuadrático medio de las observaciones en una regresión lineal simple:

$$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$$

¿Cuál es la diferencia entre estas dos fórmulas? La única diferencia que veo es que MSE utiliza $n-2$ . Entonces, si esa es la única diferencia, ¿por qué no referirse a ellas como la varianza de ambos, pero con diferentes grados de libertad?

0 votos

¿Qué pasa con la página de la wikipedia aquí que no está claro?

5 votos

La varianza es la media de la desviación al cuadrado de las observaciones respecto a la media. En cambio, el MSE es la media de las desviaciones al cuadrado de las predicciones respecto a los valores reales.

3 votos

Tanto la "varianza" como el "error medio cuadrático" tienen múltiples fórmulas y diversas aplicaciones. Para aclarar tu pregunta, ¿podrías (a) describir a qué tipo de datos estás aplicando estos conceptos y (b) dar fórmulas para ellos? (Es probable que al hacerlo descubras también la respuesta a tu pregunta).

38voto

GenericTypeTea Puntos 27689

El error cuadrático medio tal y como lo has escrito para OLS esconde algo:

$$\frac{\sum_{i}^{n}(y_i - \hat{y}_i) ^2}{n-2} = \frac{\sum_{i}^{n}\left[y_i - \left(\hat{\beta}_{0} + \hat{\beta}_{x}x_{i}\right)\right] ^2}{n-2}$$

Obsérvese que el numerador suma sobre una función de ambos $y$ y $x$ por lo que se pierde un grado de libertad para cada variable (o para cada parámetro estimado que explique una variable en función de la otra si se prefiere), por lo que $n-2$ . En la fórmula de la varianza de la muestra, el numerador es una función de una sola variable, por lo que sólo se pierde un grado de libertad en el denominador.

Sin embargo, estás en el buen camino al notar que son cantidades conceptualmente similares. La varianza de la muestra mide la dispersión de los datos en torno a la media de la muestra (en unidades al cuadrado), mientras que el MSE mide la dispersión vertical de los datos en torno a la línea de regresión de la muestra (en unidades verticales al cuadrado).

0 votos

@amoeba Gracias por la atención. ¿Existe una guía de estilo oficial para el CV que haya motivado esta edición? Si es así quiero conocerla. Si no es así, bueno, Glen_b me amonestó una vez con razón por ser colonizador con mis preferencias personales de estilo y ediciones a otros Qs y As. ¿Qué opinan ustedes? (Y lo pregunto en tono colegial: Creo que tu edición sí aporta algo. Sólo quiero entender mejor nuestros valores de edición).

1 votos

No creo que haya ninguna guía de estilo de CV oficial que haga esta sugerencia, pero en LaTeX hay en línea las fórmulas (marcadas con un signo de dólar) que se muestran directamente en el bloque de texto, y se muestra fórmulas (marcadas con dos signos de dólar) que se representan en una línea separada. Las fórmulas mostradas utilizan un diseño diferente. Su fórmula estaba originalmente en una línea separada pero marcada con un signo de dólar; no creo que esto tenga sentido. Sin embargo, tienes razón en cuanto a las preferencias personales, así que siéntete libre de retroceder con tus disculpas. La razón por la que edité fue que estaba arreglando un error tipográfico en la Q de todos modos.

1 votos

Si no hay término de intercepción $\beta_0$ en el problema de regresión, entonces los grados de libertad del MSE son iguales a $n-1$ como en la fórmula de la varianza en lugar de $n-2$

1voto

Brajesh Kumar Puntos 11

En la fórmula de la varianza, la media de la muestra se aproxima a la media de la población. La media muestral se calcula para una muestra determinada con $n$ puntos de datos. Conocer la media muestral nos deja sólo $n-1$ puntos de datos independientes como el $n$ th punto de datos está limitado por la media de la muestra, por lo que ( $n-1$ ) grados de libertad (DOF) en el denominador de la fórmula de la varianza.

Para obtener el valor estimado de y ( $= \beta_{0} + \beta_{1}\times x$ ) en la fórmula del MSE, necesitamos estimar tanto $\beta_{0}$ (es decir, el intercepto) así como $\beta_{1}$ (es decir, la inclinación) por lo que perdemos 2 DOF, y por lo tanto esa es la razón de ( $n-2$ ) en el denominador de la fórmula del MSE.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X