33 votos

¿Cuál es la distribución de $R^2$ en la regresión lineal bajo la hipótesis nula? ¿Por qué su moda no está en cero cuando $k>3$ ?

Cuál es la distribución del coeficiente de determinación, o R al cuadrado, $R^2$ en la regresión lineal múltiple univariante bajo la hipótesis nula $H_0:\beta=0$ ?

Cómo depende del número de predictores $k$ y el número de muestras $n>k$ ? ¿Existe una expresión de forma cerrada para la moda de esta distribución?

En particular, tengo la sensación de que para la regresión simple (con un predictor $x$ ) esta distribución tiene la moda en cero, pero para la regresión múltiple la moda está en un valor positivo no nulo. Si esto es cierto, ¿hay una explicación intuitiva de esta "transición de fase"?


Actualización

Como demostró @Alecos a continuación, la distribución tiene un pico en cero cuando $k=2$ y $k=3$ y no a cero cuando $k>3$ . Creo que debería haber una visión geométrica de esta transición de fase. Considere la vista geométrica de OLS: $\mathbf y$ es un vector en $\mathbb R^n$ , $\mathbf X$ define un $k$ -subespacio dimensional allí. OLS equivale a proyectar $\mathbf y$ en este subespacio, y $R^2$ es el coseno al cuadrado del ángulo entre $\mathbf y$ y su proyección $\hat{\mathbf y}$ .

Ahora, de la respuesta de @Alecos se deduce que si todos los vectores son aleatorios, entonces la distribución de probabilidad de este ángulo tendrá un pico en $90^\circ$ para $k=2$ y $k=3$ pero tendrá un modo en algún otro valor $<90^\circ$ para $k>3$ . ¿Por qué?


Actualización 2: Acepto la respuesta de @Alecos, pero sigo teniendo la sensación de que se me escapa algo importante. Si alguien sugiere algún otro punto de vista (geométrico o no) sobre este fenómeno que lo haga "obvio", estaré encantado de ofrecer una recompensa.

40voto

Jeff Bauer Puntos 236

Para la hipótesis específica (que todos los coeficientes de los regresores son cero, no incluyendo el término constante, que no se examina en esta prueba) y en condiciones de normalidad, sabemos (véase, por ejemplo, Maddala 2001, p. 155, pero nótese que allí $k$ cuenta los regresores sin el término constante, por lo que la expresión parece un poco diferente) que la estadística

$$F = \frac {n-k}{k-1}\frac {R^2}{1-R^2}$$ se distribuye como una central $F(k-1, n-k)$ variable aleatoria.

Nótese que aunque no probamos el término constante, $k$ también lo cuenta.

Mover las cosas de un lado a otro,

$$(k-1)F - (k-1)FR^2 = (n-k)R^2 \Rightarrow (k-1)F = R^2\big[(n-k) + (k-1)F\big]$$

$$\Rightarrow R^2 = \frac {(k-1)F}{(n-k) + (k-1)F}$$

Pero el lado derecho es distribuido como una distribución Beta En concreto

$$R^2 \sim Beta\left (\frac {k-1}{2}, \frac {n-k}{2}\right)$$

El La moda de esta distribución es

$$\text{mode}R^2 = \frac {\frac {k-1}{2}-1}{\frac {k-1}{2}+ \frac {n-k}{2}-2} =\frac {k-3}{n-5} $$

MODO FINITO Y ÚNICO
De la relación anterior podemos inferir que para que la distribución tenga una moda única y finita debemos tener

$$k\geq 3, n >5 $$

Esto es coherente con el requisito general de una distribución Beta, que es

$$\{\alpha >1 , \beta \geq 1\},\;\; \text {OR}\;\; \{\alpha \geq1 , \beta > 1\}$$

como se puede deducir de este hilo de CV o leer aquí .
Tenga en cuenta que si $\{\alpha =1 , \beta = 1\}$ obtenemos la distribución Uniforme, por lo que todos los puntos de densidad son modos (finitos pero no únicos). Lo que crea la pregunta: ¿Por qué, si $k=3, n=5$ , $R^2$ se distribuye como $U(0,1)$ ?

IMPLICACIONES
Suponga que tiene $k=5$ regresores (incluida la constante), y $n=99$ observaciones. Una regresión bastante buena, sin sobreajuste. Entonces

$$R^2\Big|_{\beta=0} \sim Beta\left (2, 47\right), \text{mode}R^2 = \frac 1{47} \approx 0.021$$

y el diagrama de densidad

enter image description here

Intuición, por favor: esta es la distribución de $R^2$ bajo la hipótesis de que ningún regresor pertenece realmente a la regresión. Así pues, a) la distribución es independiente de los regresores, b) a medida que aumenta el tamaño de la muestra, su distribución se concentra hacia el cero, ya que el aumento de la información empapa la variabilidad de la muestra pequeña que puede producir cierto "ajuste", pero también c) a medida que aumenta el número de regresores irrelevantes para un tamaño de muestra determinado, la distribución se concentra hacia $1$ y tenemos el fenómeno del "ajuste espurio".

Pero además, nótese lo "fácil" que es rechazar la hipótesis nula: en el ejemplo particular, para $R^2=0.13$ la probabilidad acumulada ya ha alcanzado $0.99$ , por lo que se obtiene un $R^2>0.13$ rechazará el nulo de "regresión insignificante" al nivel de significación $1$ %.

ADDENDUM
Para responder a la nueva cuestión relativa al modo de $R^2$ puedo ofrecer la siguiente línea de pensamiento (no geométrica), que la relaciona con el fenómeno del "ajuste espurio": cuando ejecutamos los mínimos cuadrados en un conjunto de datos, esencialmente resolvemos un sistema de $n$ ecuaciones lineales con $k$ incógnitas (la única diferencia con las matemáticas del instituto es que entonces llamábamos "coeficientes conocidos" a lo que en la regresión lineal llamamos "variables/represores", "x desconocidos" a lo que ahora llamamos "coeficientes desconocidos", y "términos constantes" a lo que conocemos como "variable dependiente"). Mientras $k<n$ el sistema está sobreidentificado y no existe una solución exacta, sino aproximada -y la diferencia surge como "varianza no explicada de la variable dependiente", que se recoge en $1-R^2$ . Si $k=n$ el sistema tiene una solución exacta (suponiendo independencia lineal). En el medio, a medida que aumentamos el número de $k$ En este caso, reducimos el "grado de sobreidentificación" del sistema y nos "acercamos" a la solución exacta única. Según este punto de vista, tiene sentido que $R^2$ aumenta espuriamente con la adición de regresiones irrelevantes y, en consecuencia, por qué su modo se mueve gradualmente hacia $1$ , como $k$ aumenta para un determinado $n$ .

23voto

Silverfish Puntos 6909

No voy a rederivar el $\mathrm{Beta}(\frac{k-1}{2}, \, \frac{n-k}{2})$ en la excelente respuesta de @Alecos (es un resultado estándar, ver aquí ¡para otra bonita discusión) pero quiero completar más detalles sobre las consecuencias! En primer lugar, ¿qué hace la distribución nula de $R^2$ para un rango de valores de $n$ y $k$ ? El gráfico de la respuesta de @Alecos es bastante representativo de lo que ocurre en la práctica de las regresiones múltiples, pero a veces es más fácil obtener información de casos más pequeños. He incluido la media, la moda (cuando existe) y la desviación estándar. El gráfico/tabla merece un buen vistazo: se ve mejor a tamaño completo . Podría haber incluido menos facetas, pero el patrón habría sido menos claro; he añadido R para que los lectores puedan experimentar con diferentes subconjuntos de $n$ y $k$ .

Distribution of R2 for small sample sizes

Valores de los parámetros de forma

El esquema de colores del gráfico indica si cada parámetro de forma es menor que uno (rojo), igual a uno (azul) o mayor que uno (verde). La parte izquierda muestra el valor de $\alpha$ mientras que $\beta$ está a la derecha. Desde $\alpha = \frac{k-1}{2}$ su valor aumenta en progresión aritmética por una diferencia común de $\frac{1}{2}$ a medida que nos desplazamos hacia la derecha de columna en columna (añadiendo un regresor a nuestro modelo) mientras que, para las $n$ , $\beta = \frac{n-k}{2}$ disminuye en $\frac{1}{2}$ . El total $\alpha + \beta = \frac{n-1}{2}$ se fija para cada fila (para un tamaño de muestra determinado). En cambio, si fijamos $k$ y desplazarse hacia abajo en la columna (aumentar el tamaño de la muestra en 1), entonces $\alpha$ se mantiene constante y $\beta$ aumenta en $\frac{1}{2}$ . En términos de regresión, $\alpha$ es la mitad del número de regresores incluidos en el modelo, y $\beta$ es la mitad de los grados de libertad residuales . Para determinar la forma de la distribución nos interesa especialmente saber dónde $\alpha$ o $\beta$ igual a uno.

El álgebra es sencilla para $\alpha$ Tenemos $\frac{k-1}{2}=1$ así que $k=3$ . De hecho, ésta es la única columna del gráfico de facetas que se rellena de azul a la izquierda. Del mismo modo, $\alpha < 1$ para $k<3$ (el $k=2$ es de color rojo a la izquierda) y $\alpha > 1$ para $k>3$ (de la $k=4$ columna en adelante, el lado izquierdo es verde).

Para $\beta=1$ tenemos $\frac{n-k}{2}=1$ por lo que $k=n-2$ . Obsérvese cómo estos casos (marcados con un azul a la derecha) cortan una línea diagonal a través del gráfico de facetas. Para $\beta > 1$ obtenemos $k < n - 2$ (los gráficos con el lado izquierdo verde se encuentran a la izquierda de la línea diagonal). En $\beta < 1$ necesitamos $k > n - 2$ que implica sólo los casos más a la derecha de mi gráfico: en $n=k$ tenemos $\beta=0$ y la distribución es degenerada, pero $n=k-1$ donde $\beta = \frac{1}{2}$ (lado derecho en rojo).

Dado que el PDF es $f(x;\,\alpha,\,\beta) \propto x^{\alpha-1} (1-x)^{\beta-1}$ está claro que si (y sólo si) $\alpha<1$ entonces $f(x) \to \infty$ comme $x \to 0$ . Podemos ver esto en el gráfico: cuando el lado izquierdo está sombreado en rojo, observe el comportamiento en 0. De manera similar cuando $\beta<1$ entonces $f(x) \to \infty$ comme $x \to 1$ . ¡Mira que el lado derecho es rojo!

Simetrías

Una de las características más llamativas del gráfico es el nivel de simetría, pero cuando se trata de la distribución Beta, esto no debería sorprender.

La propia distribución Beta es simétrica si $\alpha = \beta$ . Para nosotros esto ocurre si $n = 2k-1$ que identifica correctamente los paneles $(k=2, n=3)$ , $(k=3, n=5)$ , $(k=4, n=7)$ y $(k=5, n=9)$ . La medida en que la distribución es simétrica entre $R^2 = 0.5$ depende de cuántas variables regresoras incluyamos en el modelo para ese tamaño de muestra. Si $k = \frac{n+1}{2}$ la distribución de $R^2$ es perfectamente simétrica en torno a 0,5; si incluimos menos variables que eso, se vuelve cada vez más asimétrica y el grueso de la masa de probabilidad se acerca a $R^2 = 0$ si incluimos más variables entonces se acerca más a $R^2 = 1$ . Recuerde que $k$ incluye el intercepto en su recuento, y que estamos trabajando bajo la nulidad, por lo que las variables regresoras deberían tener coeficiente cero en el modelo correctamente especificado.

También existe una evidente simetría entre distribuciones para cualquier $n$ es decir, cualquier fila de la cuadrícula de facetas. Por ejemplo, compare $(k=3, n=9)$ con $(k=7, n=9)$ . ¿Cuál es la causa de esto? Recordemos que la distribución de $\mathrm{Beta}(\alpha, \beta)$ es la imagen de espejo de $\mathrm{Beta}(\beta, \alpha)$ a través de $x=0.5$ . Ahora tenemos $\alpha_{k,n} = \frac{k-1}{2}$ y $\beta_{k,n} = \frac{n-k}{2}$ . Considere $k'=n-k+1$ y encontramos:

$$\alpha_{k',n} = \frac{(n-k+1)-1}{2} = \frac{n-k}{2} = \beta_{k,n}$$ $$\beta_{k',n} = \frac{n-(n-k+1)}{2} = \frac{k-1}{2} = \alpha_{k,n}$$

Esto explica la simetría al variar el número de regresores en el modelo para un tamaño de muestra fijo. También explica las distribuciones que son en sí mismas simétricas como un caso especial: para ellos, $k' = k$ por lo que están obligados a ser simétricos consigo mismos.

Esto nos dice algo que quizá no habíamos adivinado sobre la regresión múltiple: para un tamaño de muestra determinado $n$ y asumiendo que ningún regresor tiene una relación genuina con $Y$ , el $R^2$ para un modelo que utiliza $k-1$ regresores más un intercepto tiene la misma distribución que $1 - R^2$ para un modelo con $k-1$ grados de libertad residuales restantes .

Distribuciones especiales

Cuando $k=n$ tenemos $\beta=0$ que no es un parámetro válido. Sin embargo, como $\beta \to 0$ la distribución se convierte en degenerado con un pico tal que $\mathsf{P}(R^2 = 1)=1$ . Esto es coherente con lo que sabemos sobre un modelo con tantos parámetros como puntos de datos: consigue un ajuste perfecto. No he dibujado la distribución degenerada en mi gráfico, pero sí he incluido la media, la moda y la desviación estándar.

Cuando $k=2$ y $n=3$ obtenemos $\mathrm{Beta}(\frac{1}{2}, \, \frac{1}{2})$ que es el distribución del arcoseno . Esto es simétrico (ya que $\alpha = \beta$ ) y bimodal (0 y 1). Dado que este es el único caso en el que ambos $\alpha < 1$ y $\beta < 1$ (marcado en rojo en ambos lados), es nuestra única distribución que va al infinito en ambos extremos del soporte.

El $\mathrm{Beta}(1, \, 1)$ es la única distribución Beta que se rectangular (uniforme) . Todos los valores de $R^2$ de 0 a 1 son igualmente probables. La única combinación de $k$ y $n$ para lo cual $\alpha = \beta =1$ se produce es $k=3$ y $n=5$ (marcado en azul en ambos lados).

Los casos especiales anteriores son de aplicación limitada, pero el caso $\alpha > 1$ y $\beta=1$ (verde a la izquierda, azul a la derecha) es importante. Ahora $f(x;\,\alpha,\,\beta) \propto x^{\alpha-1} (1-x)^{\beta-1} = x^{\alpha-1}$ por lo que tenemos un distribución de ley de potencia en [0, 1]. Por supuesto, es poco probable que realicemos una regresión con $k=n-2$ y $k>3$ que es cuando se produce esta situación. Pero por el argumento de simetría anterior, o alguna álgebra trivial sobre la PDF, cuando $k=3$ y $n > 5$ , que es el procedimiento frecuente de regresión múltiple con dos regresores y un intercepto sobre un tamaño de muestra no trivial, $R^2$ seguirá una distribución de ley de potencia reflejada en [0, 1] bajo $H_0$ . Esto corresponde a $\alpha=1$ y $\beta>1$ por lo que está marcado en azul a la izquierda y en verde a la derecha.

Es posible que también haya notado el distribuciones triangulares en $(k=5,n=7)$ y su reflejo $(k=3,n=7)$ . Podemos reconocer en sus $\alpha$ y $\beta$ que estos son sólo casos especiales de las distribuciones de ley de potencia y de ley de potencia reflejada donde la potencia es $2-1=1$ .

Modo

Si $\alpha>1$ y $\beta>1$ , todo verde en la parcela, $f(x; \, \alpha, \, \beta)$ es cóncavo con $f(0)=f(1)=0$ y la distribución Beta tiene una única moda $\frac{\alpha-1}{\alpha+\beta-2}$ . Poniendo esto en términos de $k$ y $n$ la condición se convierte en $k>3$ y $n>k+2$ mientras que el modo es $\frac{k-3}{n-5}$ .

Todos los demás casos han sido tratados anteriormente. Si relajamos la desigualdad para permitir $\beta=1$ entonces incluimos las distribuciones de ley de potencia (verde-azul) con $k=n-2$ y $k>3$ (de forma equivalente, $n>5$ ). Estos casos tienen claramente el modo 1, lo que en realidad concuerda con la fórmula anterior ya que $\frac{(n-2)-3}{n-5}=1$ . Si en lugar de eso permitimos $\alpha=1$ pero aún así exigió $\beta>1$ encontraríamos las distribuciones de ley de potencia reflejadas (azul-verde) con $k=3$ y $n>5$ . Su modo es 0, lo que coincide con $\frac{3-3}{n-5}=0$ . Sin embargo, si relajamos ambas desigualdades simultáneamente para permitir $\alpha=\beta=1$ encontraríamos la distribución uniforme (toda azul) con $k=3$ y $n=5$ que no tiene un modo único. Además la fórmula anterior no se puede aplicar en este caso, ya que devolvería la forma indeterminada $\frac{3-3}{5-5}=\frac{0}{0}$ .

Cuando $n=k$ obtenemos una distribución degenerada con modo 1. Cuando $\beta < 1$ (en términos de regresión, $n=k-1$ por lo que sólo hay un grado de libertad residual) entonces $f(x) \to \infty$ comme $x \to 1$ y cuando $\alpha < 1$ (en términos de regresión, $k=2$ así que un modelo lineal simple con intercepción y un regresor) entonces $f(x) \to \infty$ comme $x \to 0$ . Serían modos únicos, excepto en el caso inusual de que $k=2$ y $n=3$ (ajustando un modelo lineal simple a tres puntos) que es bimodal en 0 y 1.

Media

La pregunta se refería a la moda, pero la media de $R^2$ bajo el nulo también es interesante - tiene la forma notablemente simple $\frac{k-1}{n-1}$ . Para un tamaño de muestra fijo, aumenta en progresión aritmética a medida que se añaden más regresores al modelo, hasta que el valor medio es 1 cuando $k=n$ . La media de una distribución Beta es $\frac{\alpha}{\alpha+\beta}$ por lo que dicha progresión aritmética era inevitable a partir de nuestra anterior observación de que, para las $n$ la suma $\alpha+\beta$ es constante pero $\alpha$ aumenta en 0,5 por cada regresor añadido al modelo.

$$\frac{\alpha}{\alpha+\beta} = \frac{(k-1)/2}{(k-1)/2 + (n-k)/2} = \frac{k-1}{n-1}$$

Código para las parcelas

require(grid)
require(dplyr)

nlist <- 3:9 #change here which n to plot
klist <- 2:8 #change here which k to plot

totaln <- length(nlist)
totalk <- length(klist)

df <- data.frame(
    x = rep(seq(0, 1, length.out = 100), times = totaln * totalk),
    k = rep(klist, times = totaln, each = 100),
    n = rep(nlist, each = totalk * 100)
)

df <- mutate(df,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    density = dbeta(x, (k-1)/2, (n-k)/2),
    groupcol = ifelse(x < 0.5, 
        ifelse(a < 1, "below 1", ifelse(a ==1, "equals 1", "more than 1")),
        ifelse(b < 1, "below 1", ifelse(b ==1, "equals 1", "more than 1")))
)

g <- ggplot(df, aes(x, density)) +
    geom_line(size=0.8) + geom_area(aes(group=groupcol, fill=groupcol)) +
    scale_fill_brewer(palette="Set1") +
    facet_grid(nname ~ kname)  + 
    ylab("probability density") + theme_bw() + 
    labs(x = expression(R^{2}), fill = expression(alpha~(left)~beta~(right))) +
    theme(panel.margin = unit(0.6, "lines"), 
        legend.title=element_text(size=20),
        legend.text=element_text(size=20), 
        legend.background = element_rect(colour = "black"),
        legend.position = c(1, 1), legend.justification = c(1, 1))

df2 <- data.frame(
    k = rep(klist, times = totaln),
    n = rep(nlist, each = totalk),
    x = 0.5,
    ymean = 7.5,
    ymode = 5,
    ysd = 2.5
)

df2 <- mutate(df2,
    kname = paste("k =", k),
    nname = paste("n =", n),
    a = (k-1)/2,
    b = (n-k)/2,
    meanR2 = ifelse(k > n, NaN, a/(a+b)),
    modeR2 = ifelse((a>1 & b>=1) | (a>=1 & b>1), (a-1)/(a+b-2), 
        ifelse(a<1 & b>=1 & n>=k, 0, ifelse(a>=1 & b<1 & n>=k, 1, NaN))),
    sdR2 = ifelse(k > n, NaN, sqrt(a*b/((a+b)^2 * (a+b+1)))),
    meantext = ifelse(is.nan(meanR2), "", paste("Mean =", round(meanR2,3))),
    modetext = ifelse(is.nan(modeR2), "", paste("Mode =", round(modeR2,3))),
    sdtext = ifelse(is.nan(sdR2), "", paste("SD =", round(sdR2,3)))
)

g <- g + geom_text(data=df2, aes(x, ymean, label=meantext)) +
    geom_text(data=df2, aes(x, ymode, label=modetext)) +
    geom_text(data=df2, aes(x, ysd, label=sdtext))
print(g)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X