Dejemos que $n$ sea un número entero positivo fijo. Generar $n$ números $x_1, x_2, ..., x_n$ del conjunto $[0,1]$ siendo la distribución de probabilidad la uniforme y la $x_i$ siendo todos ellos independientes entre sí. Ahora repite este proceso para generar $y_1, ..., y_n$ . Si dejamos que $X$ sea una variable aleatoria que toma $x_1, ..., x_n$ con probabilidad $\frac{1}{n}$ cada uno, y que $Y$ sea una variable aleatoria que toma $y_i$ siempre que $X$ adquiere un valor de $x_i$ . Podemos entonces calcular el cuadrado de la correlación $R^2$ entre $X$ y $Y$ . ¿Cuál es el valor esperado de este $R^2$ ?
Otra formulación menos rigurosa del problema es la siguiente: supongamos que lanzamos $n$ puntos al azar en un gráfico que abarca $[0,1] \times [0,1]$ . ¿Cuál es el valor esperado del $R^2$ de la línea de mejor ajuste?
Por ejemplo, para $n=2$ el valor esperado es $1$ debido a la $R^2$ valor siendo siempre $1$ . Para $n=3$ se puede calcular numéricamente que el valor esperado sea $\frac{1}{2}$ . En general, parece que la respuesta es $\frac{1}{n-1}$ . Realmente no tengo ni idea de cómo hacer este problema en general; e incluso los casos específicos parecen no ser triviales. ¿Alguien tiene alguna idea? Esto parece lo que debería ser un resultado bien conocido, pero mi búsqueda no encontró nada que pareciera útil.
Esto tiene aplicaciones en el sentido de que cuando se trabaja con variables que no se espera que estén muy correlacionadas, a menudo es difícil saber cuándo una $R^2$ es significativo. Este resultado da una idea de la magnitud del $R^2$ para deducir que existe una correlación no trivial entre dos variables.