9 votos

Alta $R^2$ cuadrado y alto $p$ -valor de la regresión lineal simple

L $\hat{y} = bx + \text{intercept}$ .

¿Es posible tener un valor p alto y un valor $R^2$ (o bajo valor p y bajo $R^2$ )? He estado buscando ejemplos de esto. Cuando la regresión lineal tiene múltiples parámetros, he visto algunos ejemplos en los que el valor p para algunos parámetros son bajos, pero en general $R^2$ es baja también, pero me preguntaba si es posible para la regresión lineal de un solo parámetro.

11voto

Ran Kerry Puntos 1

Sí, es posible. En $R^2$ y el $t$ (utilizado para calcular el valor p) están relacionados exactamente por:

$ |t| = \sqrt{\frac{R^2}{(1- R^2)}(n -2)} $

Por lo tanto, puede tener un alto $R^2$ con un valor p elevado (un valor $|t|$ ) si tiene una muestra pequeña.

Por ejemplo $n = 3$ . Para que este tamaño de muestra le dé un valor p (de dos caras) inferior al 10% necesitaría un $R^2$ superior al 85%: cualquier valor inferior le daría un valor p "no significativo".

Como ejemplo concreto, la simulación siguiente produce un $R^2$ cercano a 0,5 con un valor p de $0.516$ .

set.seed(10)
n <- 3
x <- rnorm(n, 0, 1)
y <- 1 + x + rnorm(n, 0, 1)
summary(m1 <- lm(y ~ x))

Call:
lm(formula = y ~ x)

Residuals:
       1        2        3 
-0.36552  0.42802 -0.06251 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)   0.7756     0.4261    1.82    0.320
x             0.5065     0.5333    0.95    0.516

Residual standard error: 0.5663 on 1 degrees of freedom
Multiple R-squared:  0.4743,    Adjusted R-squared:  -0.05148 
F-statistic: 0.9021 on 1 and 1 DF,  p-value: 0.5164

En el caso contrario (valor p bajo con valor $R^2$ ), se puede obtener trivialmente estableciendo una regresión donde $x$ tiene un bajo poder explicativo y dejemos que $n \to \infty$ para obtener un valor p tan pequeño como desee.

0 votos

Si x e y son ruido no correlacionado, entonces uno debería tener un valor p bajo, otoh un tamaño de muestra grande debería dar un R^2 decente. ¿No debería funcionar?

0 votos

@aginensky no, no debería. Un tamaño de muestra grande mejora lo bien que estimas R^2 y no lo grande que es R^2. Si x e y no están correlacionados, su R^2 convergerá a cero como n -> infty.

1 votos

@carloscinelli gracias por tu respuesta. Supongo que suponiendo que el tamaño de la muestra es lo suficientemente alta, es imposible tener tanto alta R^2 y p-valor al mismo tiempo para la regresión lineal simple como este.

4voto

JornC Puntos 81

Esto parece un autoestudio, así que le daré una pista: ¿Alguna de estas medidas (R-cuadrado y p-valor), o ambas, están relacionadas con el tamaño de la muestra?

0voto

Lorry Puntos 7

He aquí otro ejemplo:

$y_1 = c + \epsilon,y_2 = c,\ y_3 = \epsilon,$ donde $c$ es una constante y $\epsilon \sim \mathcal{N}(0, \sigma^2)$ es un ruido gaussiano.

Consideremos los dos problemas de regresión:

(1) $y_1 = \hat{\beta}_2 y_2 +\epsilon_2$

(2) $y_1 = \hat{\beta}_3 y_3 +\epsilon_3$

¿Podría decir en qué caso, tenemos un alto $R^2$ y un alto $p$ -valor; y en cuyo caso, tenemos un bajo $R^2$ y un bajo $p$ -¿Valor?

p.d. $\frac{R^2}{1-R^2}$ en la fórmula de la respuesta de Carlos es relación señal/ruido de la regresión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X