24 votos

¿Cuál es la relación entre R-cuadrado y p-valor en una regresión?

Tl;dr - para la regresión OLS, ¿implica un R-cuadrado más alto también un valor P más alto? Concretamente para una única variable explicativa (Y = a + bX + e), pero también me interesaría saberlo para n variables explicativas múltiples (Y = a + b1X + ... bnX + e).

Contexto - Estoy realizando una regresión MCO sobre una serie de variables y estoy intentando desarrollar la mejor forma funcional explicativa produciendo una tabla que contenga los valores R-cuadrado entre las transformaciones lineales, logarítmicas, etc., de cada variable explicativa (independiente) y la variable de respuesta (dependiente). Esto se parece un poco a:

Nombre de la variable --forma lineal-- --ln(variable) --exp(variable)-- ...etc

Variable 1 ------- R-cuadrado ----R-cuadrado ----R-cuadrado --
...etc...

Me pregunto si R-cuadrado es apropiado o si los valores P serían mejores. Es de suponer que existe alguna relación, ya que una relación más significativa implicaría un mayor poder explicativo, pero no estoy seguro de que esto sea cierto de forma rigurosa.

18voto

jldugger Puntos 7490

La respuesta es no, no existe tal relación regular entre $R^2$ y el valor p de la regresión global, porque $R^2$ depende tanto de la varianza de las variables independientes como de la varianza de los residuos (a la que es inversamente proporcional), y usted es libre de cambiar la varianza de las variables independientes en cantidades arbitrarias.

A modo de ejemplo, considere cualquier conjunto de datos multivariantes $((x_{i1}, x_{i2}, \ldots, x_{ip}, y_i))$ con $i$ indexando los casos y supongamos que el conjunto de valores de la primera variable independiente, $\{x_{i1}\}$ tiene un máximo único $x^*$ separado del segundo valor más alto por una cantidad positiva $\epsilon$ . Aplicar una transformación no lineal de la primera variable que envíe todos los valores menores que $x^* - \epsilon/2$ a la gama $[0,1]$ y envía $x^*$ a algún valor grande $M \gg 1$ . Para cualquier $M$ esto puede hacerse mediante una transformación Box-Cox adecuada (a escala) $x \to a((x-x_0)^\lambda - 1)/(\lambda-1))$ por ejemplo, así que no estamos hablando de nada extraño o "patológico". Entonces, como $M$ crece arbitrariamente, $R^2$ se acerca a $1$ tan cerca como quieras, independientemente de lo malo que sea el ajuste, porque la varianza de los residuos estará acotada mientras que la varianza de la primera variable independiente es asintóticamente proporcional a $M^2$ .


En su lugar, debería utilizar pruebas de bondad de ajuste (entre otras técnicas) para seleccionar un modelo adecuado en su exploración: debe preocuparse por la linealidad del ajuste y del homocedasticidad de los residuos. Y no se fíe de los p-valores de la regresión resultante: acabarán siendo casi insignificantes después de haber realizado este ejercicio, porque su interpretación supone que la elección de expresar las variables independientes no dependía en absoluto de los valores de la variable dependiente, lo que no es en absoluto el caso aquí.

11voto

AdamSane Puntos 1825

Esta respuesta no aborda directamente la pregunta central; no es más que información adicional demasiado larga para un comentario.

Señalo esto porque econometricstatsquestion encontrará sin duda esta información, o algo parecido en algún momento (afirmando que $F$ y $R^2$ son relacionados) y se preguntan si la información dada en otras respuestas aquí es errónea - no es errónea - pero creo que vale la pena tener claro lo que está pasando.

Existe una relación en determinadas circunstancias, si se mantiene fijo el número de observaciones y el número de predictores para un modelo determinado, $F$ es de hecho monótona en $R^2$ ya que

$$ F = \frac{R^2/(k-1)}{(1-R^2)/(N-k)} $$

(Si divides numerador y denominador por $R^2$ y tire de las constantes en $k$ fuera, se puede ver que $1/F \propto 1/R^2 - 1$ si mantiene $N$ y $k$ constante).

Puesto que para f.d. fijos $F$ y el valor p están relacionados monotónicamente, $R^2$ et le $p$ -también están relacionados monotónicamente.

Pero si se cambia casi cualquier cosa del modelo, esa relación no se mantiene en las circunstancias modificadas.

Por ejemplo, añadir un punto hace $(N-k)/(k-1)$ más grande y quitar uno lo hace más pequeño, pero hacer cualquiera de los dos puede aumentar o disminuir $R^2$ Así que parece $F$ y $R^2$ no se mueven necesariamente juntos si añades o eliminas datos. Añadir una variable disminuye $(N-k)/(k-1)$ pero aumenta $R^2$ (y viceversa), así que de nuevo, $R^2$ no está necesariamente relacionado con $F$ cuando haces eso.

Claramente, una vez que comparas $R^2$ y $p$ -valores a través de modelos con características diferentes, esta relación no se mantiene necesariamente, como demostró whuber en el caso de las transformaciones no lineales.

5voto

Ran Kerry Puntos 1

"para la regresión OLS, ¿un R-cuadrado más alto implica también un mayor valor P? Concretamente para una única variable explicativa (Y = a + bX + e) "

Específicamente para una única variable explicativa, dado el tamaño de la muestra la respuesta es sí. Como ha explicado Glen_b, existe una relación directa entre $R^2$ y el estadístico de prueba (ya sea un $F$ o $t$ ). Por ejemplo, como se explica en esta otra pregunta ( Alta $R^2$ cuadrado y alto $p$ -valor de la regresión lineal simple ) para la regresión lineal simple con una covariable (y una constante), la relación entre $t$ y $R^2$ es:

$|t| = \sqrt{\frac{R^2}{(1- R^2)}(n -2)}$

Así que en este caso, una vez que arreglar $n$ cuanto mayor sea $R^2$ cuanto mayor sea la $t$ y cuanto menor sea el valor p.

"pero también estaría interesado en saber para n múltiples variables explicativas variables (Y = a + b1X + ... bnX + e)".

La respuesta es la misma, pero en lugar de fijarnos en una sola variable, ahora nos fijamos en todas las variables juntas, de ahí la expresión $F$ estadística, como ha demostrado Glen_b. Y aquí hay que arreglar ambos $n$ y el número de parámetros. O, para decirlo mejor, fijar los grados de libertad.

Contexto - Estoy realizando una regresión OLS sobre una serie de variables y estoy tratando de desarrollar la mejor forma funcional explicativa (...)

Bien, en realidad se trata de un problema diferente. Si usted está buscando la mejor forma funcional explicativa, también debe echar un vistazo a validación cruzada técnicas. Aunque $R^2$ es la cantidad de interés para su problema (normalmente no lo es), encontrar el mejor ajuste dentro de la muestra puede ser muy engañoso: normalmente se desea que los resultados se generalicen fuera de la muestra, y una validación cruzada adecuada puede ayudar a no sobreajustar demasiado los datos.

Y aquí supongo que lo que quieres es poder "predictivo" (ya que dices que quieres encontrar "la mejor forma funcional explicativa"). Si quiere hacer inferencia causal, por ejemplo, entonces la $R^2$ u otras métricas predictivas del rendimiento son de poca ayuda sin un conocimiento más estructural/sustantivo del problema.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X