19 votos

En $r$ -cuadrado tienen un $p$ -¿Valor?

Parece que me he confundido tratando de entender si un $r$ -al cuadrado también tiene un $p$ -valor.

Según tengo entendido, en la correlación lineal con un conjunto de puntos de datos $r$ puede tener un valor comprendido entre $-1$ a $1$ y este valor, sea cual sea, puede tener un $p$ -valor que muestra si $r$ es significativamente diferente de $0$ (es decir, si existe una correlación lineal entre las dos variables).

Pasando a la regresión lineal, se puede ajustar una función a los datos, descrita por la ecuación $Y = a + bX$ . $a$ y $b$ (intercepto y pendiente) también tienen $p$ -valores para mostrar si son significativamente diferentes de $0$ .

Suponiendo que hasta ahora he entendido todo correctamente, ¿son los $p$ -valor para $r$ y el $p$ -valor para $b$ ¿lo mismo? ¿Es entonces correcto decir que no es $r$ -cuadrado que tiene un $p$ -sino más bien $r$ o $b$ ¿Eso hace?

15voto

Jake Westfall Puntos 3777

Además de los numerosos comentarios (correctos) de otros usuarios señalando que la $p$ -valor para $r^2$ es idéntico al $p$ -valor para el global $F$ tenga en cuenta que también puede obtener el $p$ -valor asociado a $r^2$ "directamente" utilizando el hecho de que $r^2$ bajo la hipótesis nula se distribuye como $\textrm{Beta}(\frac{v_n}{2},\frac{v_d}{2})$ donde $v_n$ y $v_d$ son los grados de libertad del numerador y del denominador, respectivamente, para la variable asociada $F$ -estadística.

El tercer punto del Derivados de otras distribuciones subsección de la entrada de Wikipedia sobre la distribución beta nos dice que:

Si $X \sim \chi^2(\alpha)$ y $Y \sim \chi^2(\beta)$ son independientes, entonces $\frac{X}{X+Y} \sim \textrm{Beta}(\frac{\alpha}{2}, \frac{\beta}{2})$ .

Bien, podemos escribir $r^2$ en que $\frac{X}{X+Y}$ forma.

Sea $SS_Y$ sea la suma total de cuadrados de una variable $Y$ , $SS_E$ sea la suma de errores al cuadrado para una regresión de $Y$ en algunas otras variables, y $SS_R$ sea la "suma de cuadrados reducida", es decir, $SS_R=SS_Y-SS_E$ . Entonces $$ r^2=1-\frac{SS_E}{SS_Y}=\frac{SS_Y-SS_E}{SS_Y}=\frac{SS_R}{SS_R+SS_E} $$ Y por supuesto, ser sumas de cuadrados, $SS_R$ y $SS_E$ se distribuyen como $\chi^2$ con $v_n$ y $v_d$ grados de libertad, respectivamente. Por lo tanto, $$ r^2 \sim \textrm{Beta}(\frac{v_n}{2},\frac{v_d}{2}) $$ (Por supuesto, no he demostrado que los dos chi-cuadrados sean independientes. Quizá algún comentarista pueda decir algo al respecto).

Demostración en R (código prestado de @gung):

set.seed(111)
x = runif(20)
y = 5 + rnorm(20)
cor.test(x,y)

# Pearson's product-moment correlation
# 
# data:  x and y
# t = 1.151, df = 18, p-value = 0.2648
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
#  -0.2043606  0.6312210
# sample estimates:
#       cor 
# 0.2618393 

summary(lm(y~x))

# Call:
#   lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -1.6399 -0.6246  0.1968  0.5168  2.0355 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)   4.6077     0.4534  10.163 6.96e-09 ***
# x             1.1121     0.9662   1.151    0.265    
# ---
#   Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 1.061 on 18 degrees of freedom
# Multiple R-squared:  0.06856,  Adjusted R-squared:  0.01681 
# F-statistic: 1.325 on 1 and 18 DF,  p-value: 0.2648

1 - pbeta(0.06856, 1/2, 18/2)

# [1] 0.2647731

6voto

Bill Puntos 16

Espero que esta cuarta (¡!) respuesta aclare más las cosas.

En la regresión lineal simple, existen tres pruebas equivalentes:

  1. Prueba t para la pendiente poblacional cero de la covariable $X$
  2. Prueba t para correlación poblacional cero entre $X$ y respuesta $Y$
  3. Prueba F para R-cuadrado poblacional cero, es decir, nada de la variabilidad de $Y$ puede explicarse por las diferentes $X$ .

En las tres pruebas se comprueba si existe una asociación lineal entre $X$ y $Y$ y, afortunadamente, todas conducen al mismo resultado. Sus estadísticas de prueba son equivalentes. (Las pruebas 1 y 2 se basan en la distribución de Student con $n-2$ df que corresponde a la distribución F muestral de la prueba 3, sólo que con el estadístico de prueba al cuadrado).

Un ejemplo rápido en R:

# Input
set.seed(3)

n <- 100
X <- runif(n)
Y <- rnorm(n) + X

cor.test(~ X + Y) # For test 2 (correlation)

# Output (part)
# t = 3.1472, df = 98, p-value = 0.002184
# alternative hypothesis: true correlation is not equal to 0

# Input (for the other two tests)
fit <- lm(Y ~ X)
summary(fit)      

# Output (partial)
Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) -0.03173    0.18214  -0.174  0.86204   
X            1.02051    0.32426   3.147  0.00218 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.9239 on 98 degrees of freedom
Multiple R-squared:  0.09179,   Adjusted R-squared:  0.08253 
F-statistic: 9.905 on 1 and 98 DF,  p-value: 0.002184

Como puede ver, las tres pruebas arrojan el mismo valor p de 0,00218. Observe que la prueba 3 es la que aparece en la última línea de la salida.

Así que su prueba F para la R cuadrada es muy frecuente, aunque no muchos estadísticos la interpretan como una prueba para la R cuadrada.

5voto

Sean Hanley Puntos 2428

A mí me parece que tienes una comprensión decente. Podríamos $p$ -valor para $r^2$ pero como es una función (no estocástica) de $r$ El $p$ s serían idénticos.

4voto

alexs77 Puntos 36

Hay varias formas de derivar la estadística de prueba para las pruebas de la correlación de Pearson, $\rho$ . Para obtener un $p$ -valor, conviene subrayar que se necesita tanto una prueba como una distribución muestral de un estadístico de prueba bajo la hipótesis nula. Su título y su pregunta parecen tener cierta confusión entre la correlación de Pearson y la "varianza explicada" $r^2$ . Primero consideraré el coeficiente de correlación.

Que yo sepa, no existe una forma "óptima" de comprobar la correlación de Pearson. La de Fisher Transformación Z es una de ellas, basada en transformaciones hiperbólicas, para que la inferencia sea un poco más eficiente. Se trata sin duda de un enfoque "bueno", pero lo triste es que la inferencia para este parámetro es coherente con la inferencia sobre el parámetro de la pendiente $\beta$ por asociación: a la larga cuentan la misma historia.

La razón por la que los estadísticos han preferido (clásicamente) las pruebas de $\beta$ es porque do tienen una "mejor" prueba: la regresión lineal, que es el estimador BLUE. En los tiempos de la estadística moderna, ya no nos importa si una prueba es "la mejor", pero la regresión lineal tiene muchas otras propiedades fantásticas que justifican que se siga utilizando para determinar la asociación entre dos variables. En general, su intuición es correcta: son esencialmente la misma cosa, y centramos nuestra atención en $\beta$ como medida más práctica de asociación.

En $r^2$ es función tanto de la pendiente como del intercepto. Si cualquiera de estos valores es distinto de cero, la $r^2$ debe tener una distribución muestral discernible en relación con la que cabría esperar si los parámetros lineales fueran cero. Sin embargo, derivar distribuciones de $r^2$ bajo el nulo y comparando con $r^2$ bajo alguna hipótesis alternativa no me da mucha confianza en que esta prueba tenga mucho poder para detectar lo que queremos que detecte. Es sólo una intuición. Volviendo a los "mejores" estimadores, OLS nos da las "mejores" estimaciones tanto de la pendiente como del intercepto, por lo que tenemos la confianza de que nuestra prueba es al menos buena para determinar la misma asociación (si la hay) probando directamente los parámetros del modelo. Para mí, probar conjuntamente los $\alpha$ y $\beta$ con OLS es superior a cualquier prueba sobre $r^2$ excepto en el raro caso de (quizás) una aplicación de calibración de modelos predictivos no anidados... pero el BIC probablemente sería una medida mejor en ese escenario de todos modos.

1voto

Yo no interpretaría así las cosas. Creo que nunca calcularía un $p$ -valor para $r$ o $r^2$ . $r$ y $r^2$ son medidas cualitativas de un modelo, no medidas que estemos comparando con una distribución, por lo que a $p$ -valor no tiene mucho sentido.

Conseguir un $p$ -valor para $b$ tiene mucho sentido - es lo que te dice si el modelo tiene una relación lineal o no. Si $b$ es significativamente diferente, desde el punto de vista estadístico, de $0$ entonces se concluye que existe una relación lineal entre las variables. En $r$ o $r^2$ indica hasta qué punto el modelo explica la variación de los datos. Si $r^2$ es baja, entonces su variable independiente no está ayudando a explicar mucho sobre la variable dependiente.

A $p$ -valor para $a$ nos dice si el intercepto es estadísticamente diferente de $0$ o no. Su utilidad varía en función de los datos. Mi ejemplo favorito: si se hace una regresión lineal entre el tiempo de gestación y el peso al nacer, se puede encontrar un intercepto de, digamos, 8 onzas que es estadísticamente diferente de $0$ . Sin embargo, como el intercepto representa una edad de gestación de $0$ semanas, en realidad no significa nada.

Si alguien calcula regularmente $p$ -valores para un $r^2$ Me interesaría conocerlos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X