10 votos

Valor esperado de R al cuadrado

Dejemos que $n$ sea un número entero positivo fijo. Generar $n$ números $x_1, x_2, ..., x_n$ del conjunto $[0,1]$ siendo la distribución de probabilidad la uniforme y la $x_i$ siendo todos ellos independientes entre sí. Ahora repite este proceso para generar $y_1, ..., y_n$ . Si dejamos que $X$ sea una variable aleatoria que toma $x_1, ..., x_n$ con probabilidad $\frac{1}{n}$ cada uno, y que $Y$ sea una variable aleatoria que toma $y_i$ siempre que $X$ adquiere un valor de $x_i$ . Podemos entonces calcular el cuadrado de la correlación $R^2$ entre $X$ y $Y$ . ¿Cuál es el valor esperado de este $R^2$ ?

Otra formulación menos rigurosa del problema es la siguiente: supongamos que lanzamos $n$ puntos al azar en un gráfico que abarca $[0,1] \times [0,1]$ . ¿Cuál es el valor esperado del $R^2$ de la línea de mejor ajuste?

Por ejemplo, para $n=2$ el valor esperado es $1$ debido a la $R^2$ valor siendo siempre $1$ . Para $n=3$ se puede calcular numéricamente que el valor esperado sea $\frac{1}{2}$ . En general, parece que la respuesta es $\frac{1}{n-1}$ . Realmente no tengo ni idea de cómo hacer este problema en general; e incluso los casos específicos parecen no ser triviales. ¿Alguien tiene alguna idea? Esto parece lo que debería ser un resultado bien conocido, pero mi búsqueda no encontró nada que pareciera útil.

Esto tiene aplicaciones en el sentido de que cuando se trabaja con variables que no se espera que estén muy correlacionadas, a menudo es difícil saber cuándo una $R^2$ es significativo. Este resultado da una idea de la magnitud del $R^2$ para deducir que existe una correlación no trivial entre dos variables.

6voto

Este problema parece simple... pero no lo es. Por ejemplo, ver aquí para un análisis bastante complejo para el caso prima facie simple de cocientes de rv normales y cocientes de sumas de uniformes.

En general, si sus pares no provienen de una gaussiana bivariante, no existe una fórmula agradable para $E[R^2]$ .

Note :

$$R_n=\frac{n\sum x_iy_i-\sum x_i\sum y_i}{n^2s_Xs_Y}$$

Este lío tendrá alguna distribución $f_{R_n}(r)$ que será muy sensible a $n$ .

Creo que su mejor apuesta es simular esto (Monte Carlo) para $n\in [2....N]$ utilizando un gran número de ensayos (puede comprobar la convergencia ejecutando cada simulación dos veces, con semillas elegidas al azar y comparando estos resultados entre sí y con los resultados de $n-1$ ).

Una vez que tengas estos datos, puedes ajustar una curva a ellos o alguna transformación de los mismos. Su ecuación general parece razonable en términos de cómo se verá la curva, ya que:

$$E[R^2_n] \xrightarrow{p} 0$$ para las correlaciones entre las variables independientes

Posible solución

Como sus variables son independientes, me di cuenta de que en realidad estamos buscando la varianza de la correlación de la muestra (es decir, la cuadrado del valor esperado del error estándar del coeficiente de correlación (ver p.6):

$$se_{R_n}=\sqrt{\frac{1-R^2}{n-2}}$$ . Sin embargo, usted ya conoce el verdadero valor de $R^2$ , por lo que se puede aumentar la df en el denominador para obtener:

Pero: $R^2=0$ para las variables independientes, por lo que se reduce a

$$(se_{R_n})^2=\sigma^2_{R_n}=E[R^2_n]=\frac{1}{n-1}$$

Ahí lo tienes... coincide con tus resultados empíricos. Como para Wolfies, debo señalar que este es un resultado asintótico, pero sumas de RVs uniformes generalmente presentan buenas propiedades de convergencia al estilo del CLT, por lo que esto puede explicar el buen ajuste.

Para más información, véase la bonita referencia de @soakley. He podido sacar la página correspondiente de JSTOR:

enter image description here

o, si estás realmente motivado, puedes conseguir este artículo reciente (2005) sobre su mismo problema.

4voto

Mischa Puntos 26200

Según la Teoría Avanzada de la Estadística de Kendall (Ejercicio 16.17 en la 5ª edición del Volumen 1), Pitman (1937) mostró el coeficiente de correlación muestral $r$ tiene media y varianza cero o segundo momento de $$\sigma^2_{r}=E[r^2] = {1 \over {n-1}}$$ para cualquier muestra de tamaño $n$ donde $x$ y $y$ son variables continuas independientes.

Comprobando la referencia, encontramos que muestra $r^2$ tiene una aproximación $\mathrm{Beta} \left( {1 \over 2}, {{n-2} \over {2}}\right)$ distribución.

Referencia: Pitman, E.J.G.. Pruebas de significación que pueden aplicarse a muestras de cualquier población, v. 4, nº 1, II. La prueba del coeficiente de correlación, v. 4, nº 2, $\it{Supp. J.R. Statist. Soc.},$ 1937.

1voto

Paul Magnussen Puntos 118

Sólo copio la sección de

http://en.wikipedia.org/wiki/Coefficient_of_determination

Creo que es lo que está buscando.

Un conjunto de datos tiene n valores marcados $y_1...y_n$ (conocidos colectivamente como $y_i$ ), cada una asociada a un valor previsto (o modelado) $f_1...f_n$ (conocido como $f_i$ , o a veces $ŷ_i$ ).

Si $\bar{y}$ es la media de los datos observados:

$\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i $ entonces la variabilidad del conjunto de datos puede medirse mediante tres fórmulas de suma de cuadrados:

La suma total de cuadrados (proporcional a la varianza de los datos): $SS_\text{tot}=\sum_i (y_i-\bar{y})^2,$ La suma de cuadrados de la regresión, también llamada suma de cuadrados explicada: $SS_\text{reg}=\sum_i (f_i -\bar{y})^2,$ La suma de cuadrados de los residuos, también llamada suma de cuadrados de los residuos: $SS_\text{res}=\sum_i (y_i - f_i)^2\,$ Las anotaciones $SS_\text{R}$ y $SS_\text{E}$ deben evitarse, ya que en algunos textos su significado se invierte a suma de cuadrados residual y suma de cuadrados explicada, respectivamente.

La definición más general del coeficiente de determinación es

$R^2 \equiv 1 - {SS_{\rm res}\over SS_{\rm tot}}.$

Nota: No puedo decir en la vista previa si se ve bien. Seguiré intentando que se vea bien, o simplemente seguir el enlace.

Si no hay más remedio, mira la figura inserta a la derecha.

Aquí está el enlace al gráfico, con los cuadrados de los datos frente a (la diferencia de los cuadrados) $\bar{y}$ a la izquierda en comparación con los cuadrados de los datos frente a la línea de ajuste (diferencia de cuadrados) a la derecha.

http://en.wikipedia.org/wiki/Coefficient_of_determination#mediaviewer/File:Coefficient_of_Determination.svg

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X