12 votos

¿Por qué dividimos por $n-1$ al calcular la correlación de la muestra?

Entiendo la razón de dividir por $n-1$ al calcular la varianza de la muestra, es decir, que si dividimos por $n$ tendremos una estimación de la varianza de la población que está sesgada para ser demasiado baja.

Buglear (2013, p. 57) afirma sobre la correlación de Pearson:

Dividimos por $n - 1$ por la misma razón que lo hacemos al calcular desviaciones estándar de la muestra: nos da un mejor estimador del equivalente poblacional.

[Buglear, J. (2013). Estadística práctica: Un manual para proyectos empresariales . Kogan Page Publishers]

Sin embargo, no entiendo por qué esto también se aplica a las correlaciones. ¿Por qué es el caso que dividiendo por $n$ subestimaría el coeficiente de correlación de la población?

10voto

Uri Puntos 111

No necesitamos la corrección de Bessel "-1" para $n$ cuando calculamos la correlación, así que creo que la pieza citada está mal. Permítanme empezar por notar que la mayoría de las veces calculamos y utilizamos empíricamente $r$ o el $r$ de la muestra, tanto para describir la muestra (el estadístico) como la población (la estimación del parámetro). Esto es diferente de los coeficientes de varianza y covarianza, en los que, normalmente, introducimos la corrección de Bessel para distinguir entre el estadístico y la estimación.

Por lo tanto, considere empírico $r$ . Es es el coseno similitud de la centrado variables ( $X$ y $Y$ ambos estaban centrados): $r= \frac{\sum{X_cY_c}}{\sqrt{\sum X_c^2\sum Y_c^2}}$ . Obsérvese que esta fórmula no contiene ni $n$ ni $n-1$ en absoluto, no necesitamos conocer el tamaño de la muestra para obtener $r$ .

Por otro lado, esa misma $r$ es también el covarianza de la z-estándar variables ( $X$ y $Y$ ambos fueron centrados y luego divididos por sus respectivas desviaciones estándar $\sigma_x$ y $\sigma_y$ ): $r= \frac{\sum{X_zY_z}}{n-1}$ . Supongo que en su pregunta se refiere a esta fórmula. Esa corrección de Bessel en el denominador, que se llama en la fórmula de la covarianza para unbias la estimación, - en esta fórmula específica para calcular $r$ sirve paradójicamente para "deshacer" la corrección no sesgada. En efecto, recordemos que $\sigma_x^2$ y $\sigma_y^2$ se había calculado utilizando el denominador $n-1$ la corrección de Bessel. Si en esta última fórmula de $r$ se desenvuelve $X_z$ y $Y_z$ mostrando cómo se calcularon a partir de $X_c$ y $Y_c$ utilizando esas desviaciones estándar basadas en "n-1" descubrirás que todos los términos "n-1" se cancelan entre sí de la fórmula, ¡y te quedas al final con la fórmula del coseno anterior! El "n-1" en la "fórmula de covarianza" de $r$ era necesario simplemente para quitar ese antiguo "n-1" utilizado.

Si preferimos computar esos $\sigma_x^2$ y $\sigma_y^2$ basado en el denominador $n$ (en lugar de $n-1$ ) la fórmula para el mismo valor de correlación será $r= \frac{\sum{X_zY_z}}{n}$ . Aquí $n$ sirve para quitar esa "n" más antigua utilizada, análogamente.

Por lo tanto, necesitábamos $n-1$ en el denominador para anular el mismo denominador en las fórmulas de las desviaciones. O se necesita $n$ por la misma razón en caso de que las varianzas se calculen como estimaciones sesgadas. Empírico $r$ no se basa en la información del tamaño de la muestra.

En cuanto a la búsqueda de una mejor estimación de la población de $\rho$ que la empírica $r$ Allí sí necesitamos correcciones, pero allí existen varios enfoques y un montón de fórmulas alternativas diferentes, y utilizan diferentes correcciones, normalmente no $n-1$ uno.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X