5 votos

¿Sigue siendo adecuada la puntuación R cuadrado ajustada cuando el número de regresores es mayor que el tamaño de la muestra?

Así que tengo una muestra muy pequeña de 50, y tengo 80 regresores. El $R^2$ es de aproximadamente 0,1, y según la siguiente ecuación sobre Wikipedia sobre cómo calcular el $\bar{R}^2$ ,

$$ \bar{R}^2 = R^2 - (1-R^2)\frac{p}{n-p-1} \\ R^2 = 0.1 \\ p = 80 \\ n = 50 $$

A continuación, el $\bar{R}^2$ se dispara a 2,42. Pero wikipedia dice $\bar{R}^2$ debe ser siempre inferior o igual a $R^2$ ¿Qué estoy haciendo mal o es que el modelo es erróneo con tantos regresores?

Modifier

Ambos $R^2$ y $\bar{R}^2$ se calcularon mediante regresión lasso en lugar de mínimos cuadrados ordinarios.

5voto

Ruvi Lecamwasam Puntos 235

El ajuste $R^2$ es específico para la regresión lineal, donde es fácil conocer el efecto de añadir muchos predictores. Si estuviera haciendo una regresión lineal con más predictores que muestras, una regresión lineal daría $R^2=1$ por lo que no debe estar utilizando un modelo de regresión lineal. Eso significa que no puede ajustar el $R^2$ independientemente del tamaño de la muestra.

Si ha intentado ajustar el $R^2$ con tus cifras te darás cuenta de que obtienes un valor mayor que $1$ y esto no tiene sentido estadístico.

Pero su pregunta sigue siendo pertinente si hubiera utilizado la regresión lineal con más predictores que muestras y hubiera obtenido $R^2=1$ . Observará que cuando $p=n-1$ el ajustado $R^2$ no está definido, y de hecho el ajuste no es válido cuando $p\geq n-1$

2voto

Rosstified Puntos 2327

Por notación, digamos $y$ sea el $n$ -de respuestas, sea $X$ sea el ( $n\times p$ ) y que $\beta$ sea el $p$ -vector de coeficientes de regresión desconocidos, con $n$ el tamaño de la muestra. La conocida estimación por mínimos cuadrados de $\beta$ es $\hat\beta = (X^TX)^{-1} X^Ty$ .

El coeficiente de determinación es $R^2 = 1-\frac{SS_{res}}{SS_{tot}}$ donde $SS_{tot}$ es la suma total de cuadrados y $SS_{res}$ es la suma de cuadrados de los residuos. El $R^2$ es como escribiste.

Volviendo a tu pregunta, ¿cuándo $n<p$ , $\hat\beta$ ya no está definida unívocamente porque la inversa de $X^TX$ no está definido. Por lo tanto, en la medida en que $n<p$ no importa qué algoritmo utilices para encontrar $\hat\beta$ Esta última siempre será indefinida y arbitraria. Esencialmente, en este caso, la función objetivo de $\beta$ es una superficie plana. En consecuencia, $R^2$ también es arbitraria y, por tanto, carece de sentido. Por esta razón, el $R^2$ tampoco tendrá sentido. Por eso se obtiene un valor tan extraño para el ajustado $R^2$ .

1voto

John Patrick Puntos 21

El valor R-cuadrado ajustado es siempre menor que R-cuadrado cuando n>p, lo que significa que el número de observaciones es mayor que el número de parámetros.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X