En mi cabeza ha habido cierta confusión sobre dos tipos de estimadores del valor poblacional del coeficiente de correlación de Pearson.
A. Fisher (1915) mostraron que para una población normal bivariada empírica $r$ es un con sesgo negativo estimador de $\rho$ aunque el sesgo puede ser prácticamente considerable sólo si la muestra es pequeña ( $n<30$ ). Muestra $r$ subestima $\rho$ en el sentido de que está más cerca de $0$ que $\rho$ . (Excepto cuando este último es $0$ o $\pm 1$ , ya que entonces $r$ es imparcial). Varios casi estimadores insesgados de $\rho$ se ha propuesto, la mejor probablemente sea Olkin y Pratt (1958) corregido $r$ :
$$r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ]$$
B. Se dice que en la regresión observada $R^2$ sobreestima el correspondiente R-cuadrado de la población. O, con la regresión simple, es que $r^2$ sobreestima $\rho^2$ . Basado en ese hecho, he visto muchos textos que dicen que $r$ es relativo con sesgo positivo a $\rho$ , que significa valor absoluto: $r$ está más lejos de $0$ que $\rho$ (¿es cierta esta afirmación?). Los textos dicen que es el mismo problema que la sobreestimación del parámetro de la desviación estándar por su valor muestral. Existen muchas fórmulas para "ajustar" lo observado $R^2$ más cerca de su parámetro poblacional, Wherry's (1931) $R_\text{adj}^2$ siendo la más conocida (pero no la mejor). La raíz de tal ajustado $r_\text{adj}^2$ se llama encogido $r$ :
$$r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}}$$
Presentamos dos estimadores diferentes de $\rho$ . Muy diferente: el primero se infla $r$ el segundo se desinfla $r$ . ¿Cómo conciliarlos? ¿Dónde usar/reportar uno y dónde - el otro?
En particular, ¿puede ser cierto que el estimador "reducido" también es (casi) insesgado, como el "insesgado", pero sólo en el diferentes en el contexto asimétrico de la regresión. Porque, en la regresión OLS consideramos los valores de un lado (el predictor) como fijos, atendiendo sin error aleatorio de muestra a muestra (Y para añadir aquí, la regresión no necesita bivariado normalidad).
1 votos
Me pregunto si esto se reduce a algo basado en la desigualdad de Jensen. Eso, y la normalidad bivariada es probablemente una mala suposición en la mayoría de los casos.
2 votos
Además, mi comprensión de la cuestión en B. es que la regresión $r^2$ es una sobreestimación porque el ajuste de la regresión puede mejorarse arbitrariamente añadiendo predictores. Eso no me parece el mismo problema que en A.
1 votos
¿Es realmente cierto que $r^2$ es una estimación positivamente sesgada de $\rho^2$ para todos los valores de $\rho$ ? En el caso de la distribución normal bivariada, no parece ser el caso de $\rho$ lo suficientemente grande.
1 votos
¿Puede el sesgo ir en la dirección opuesta para el cuadrado de un estimador? Por ejemplo, con un estimador más sencillo, ¿se puede demostrar que $E[\hat{\theta}-\theta] < 0 < E[\hat{\theta}^2-\theta^2]$ para algunos rangos de $\theta$ ? Creo que esto sería difícil de hacer si $\theta = \rho$ pero quizás se pueda elaborar un ejemplo más sencillo.