22 votos

Shrunken $r$ frente a la imparcialidad $r$ Estimadores de $\rho$

En mi cabeza ha habido cierta confusión sobre dos tipos de estimadores del valor poblacional del coeficiente de correlación de Pearson.

A. Fisher (1915) mostraron que para una población normal bivariada empírica $r$ es un con sesgo negativo estimador de $\rho$ aunque el sesgo puede ser prácticamente considerable sólo si la muestra es pequeña ( $n<30$ ). Muestra $r$ subestima $\rho$ en el sentido de que está más cerca de $0$ que $\rho$ . (Excepto cuando este último es $0$ o $\pm 1$ , ya que entonces $r$ es imparcial). Varios casi estimadores insesgados de $\rho$ se ha propuesto, la mejor probablemente sea Olkin y Pratt (1958) corregido $r$ :

$$r_\text{unbiased} = r \left [1+\frac{1-r^2}{2(n-3)} \right ]$$

B. Se dice que en la regresión observada $R^2$ sobreestima el correspondiente R-cuadrado de la población. O, con la regresión simple, es que $r^2$ sobreestima $\rho^2$ . Basado en ese hecho, he visto muchos textos que dicen que $r$ es relativo con sesgo positivo a $\rho$ , que significa valor absoluto: $r$ está más lejos de $0$ que $\rho$ (¿es cierta esta afirmación?). Los textos dicen que es el mismo problema que la sobreestimación del parámetro de la desviación estándar por su valor muestral. Existen muchas fórmulas para "ajustar" lo observado $R^2$ más cerca de su parámetro poblacional, Wherry's (1931) $R_\text{adj}^2$ siendo la más conocida (pero no la mejor). La raíz de tal ajustado $r_\text{adj}^2$ se llama encogido $r$ :

$$r_\text{shrunk} = \pm\sqrt{1-(1-r^2)\frac{n-1}{n-2}}$$

Presentamos dos estimadores diferentes de $\rho$ . Muy diferente: el primero se infla $r$ el segundo se desinfla $r$ . ¿Cómo conciliarlos? ¿Dónde usar/reportar uno y dónde - el otro?

En particular, ¿puede ser cierto que el estimador "reducido" también es (casi) insesgado, como el "insesgado", pero sólo en el diferentes en el contexto asimétrico de la regresión. Porque, en la regresión OLS consideramos los valores de un lado (el predictor) como fijos, atendiendo sin error aleatorio de muestra a muestra (Y para añadir aquí, la regresión no necesita bivariado normalidad).

1 votos

Me pregunto si esto se reduce a algo basado en la desigualdad de Jensen. Eso, y la normalidad bivariada es probablemente una mala suposición en la mayoría de los casos.

2 votos

Además, mi comprensión de la cuestión en B. es que la regresión $r^2$ es una sobreestimación porque el ajuste de la regresión puede mejorarse arbitrariamente añadiendo predictores. Eso no me parece el mismo problema que en A.

1 votos

¿Es realmente cierto que $r^2$ es una estimación positivamente sesgada de $\rho^2$ para todos los valores de $\rho$ ? En el caso de la distribución normal bivariada, no parece ser el caso de $\rho$ lo suficientemente grande.

1voto

A J Puntos 18

En cuanto al sesgo de la correlación: Cuando el tamaño de las muestras es lo suficientemente pequeño como para que el sesgo tenga alguna importancia práctica (por ejemplo, el n < 30 que sugirió), entonces es probable que el sesgo sea la menor de sus preocupaciones, porque la inexactitud es terrible.

En cuanto al sesgo de R 2 en la regresión múltiple, hay muchos ajustes diferentes que pertenecen a la estimación insesgada de la población frente a la estimación insesgada en una muestra independiente de igual tamaño. Véase Yin, P. y Fan, X. (2001). Estimación de R 2 contracción en la regresión múltiple: Una comparación de métodos analíticos. Revista de Educación Experimental, 69, 203-224.

Los métodos de regresión actuales también abordan la contracción de los coeficientes de regresión, así como R 2 como consecuencia -- por ejemplo, la red elástica con k -validación cruzada doble, véase http://web.stanford.edu/~hastie/Papers/elasticnet.pdf .

1 votos

No sé si esto realmente responde a la pregunta

1voto

Deer Hunter Puntos 741

Creo que la respuesta está en el contexto de la regresión simple y la regresión múltiple. En la regresión simple con un IV y un DV, la R cuadrada no está sesgada positivamente, y de hecho puede estar sesgada negativamente dado que la r está sesgada negativamente. Pero en la regresión múltiple con varios IV que pueden estar correlacionados, la R cuadrada puede estar sesgada positivamente debido a cualquier "supresión" que pueda estar ocurriendo. Por lo tanto, mi opinión es que el R2 observado sobreestima el correspondiente R-cuadrado de la población, pero sólo en la regresión múltiple

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X