Me sorprende que esto no se haya preguntado antes, pero no encuentro la pregunta en stats.stackexchange.
Esta es la fórmula para calcular la varianza de una muestra con distribución normal:
$$\frac{\sum(X - \bar{X}) ^2}{n-1}$$
Esta es la fórmula para calcular el error cuadrático medio de las observaciones en una regresión lineal simple:
$$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$$
¿Cuál es la diferencia entre estas dos fórmulas? La única diferencia que veo es que MSE utiliza $n-2$ . Entonces, si esa es la única diferencia, ¿por qué no referirse a ellas como la varianza de ambos, pero con diferentes grados de libertad?
0 votos
¿Qué pasa con la página de la wikipedia aquí que no está claro?
5 votos
La varianza es la media de la desviación al cuadrado de las observaciones respecto a la media. En cambio, el MSE es la media de las desviaciones al cuadrado de las predicciones respecto a los valores reales.
3 votos
Tanto la "varianza" como el "error medio cuadrático" tienen múltiples fórmulas y diversas aplicaciones. Para aclarar tu pregunta, ¿podrías (a) describir a qué tipo de datos estás aplicando estos conceptos y (b) dar fórmulas para ellos? (Es probable que al hacerlo descubras también la respuesta a tu pregunta).
8 votos
Hay una fórmula más general, de la que ambos son casos especiales: $\frac{\sum_i(y_i-\hat{y}_i)^2}{n-p}$ donde $p$ es el número de parámetros estimados para obtener $\hat{y}$
0 votos
@Glen_b ¿podría proporcionar una referencia para obtener más información sobre esta fórmula general?
0 votos
Cualquier referencia decente que cubra la regresión la tendrá. Por ejemplo, el libro de John Fox Análisis de regresión aplicado 3ª edición, capítulo 6, pp. 114-115. Podría encontrar una estantería llena de referencias adecuadas en una biblioteca universitaria... (Tenga en cuenta que mi $p$ es su $k+1$ porque mi $p$ incluye la constante pero su $k$ no lo hace)
0 votos
Si el MSE y la varianza se basan en la función de pérdida al cuadrado, una pregunta más general sería cómo se puede derivar la medida de riesgo de una función de pérdida a partir de una función de pérdida dada, es decir, la "varianza" de la función de pérdida de Huber, la "varianza" de la función de pérdida absoluta, la "varianza" del estimador de la matriz de covarianza de Ledoit-Wolf, etc.