11 votos

¿Podría dar un paso adelante la fórmula real de R-cuadrado ajustada?

La siguiente pregunta, ¿Qué es la fórmula de R-cuadrado ajustado en lm en R y cómo debe interpretarse? presenta diferentes fórmulas para el R ajustado $^2$ , que eran, Cita:

  • La fórmula de Wherry: $1-(1-R^2)\frac{(n-1)}{(n-v)}$
  • La fórmula de McNemar: $1-(1-R^2)\frac{(n-1)}{(n-v-1)}$
  • La fórmula del Señor: $1-(1-R^2)\frac{(n+v-1)}{(n-v-1)}$
  • La fórmula de Stein: $1-\big[\frac{(n-1)}{(n-k-1)}\frac{(n-2)}{(n-k-2)}\frac{(n+1)}{n}\big](1-R^2)$

Fin de la cita.

He aquí un ejemplo de la vida real para el que sólo tiene sentido lo que el OP de esa pregunta anterior denomina fórmula de Wherry, es decir $1-(1-R^2)\frac{(n-1)}{(n-v)}$

He obtenido un ajuste de un modelo con 9 parámetros y 10 $(x,y)$ elementos de datos. El R $^2$ era 0,99971297 e inmediatamente vemos el problema. Si se dividiera por $n-v-1$ estaríamos dividiendo por cero, lo que no es un ajuste, es una destrucción.

Así que utilizando la única fórmula que tiene sentido en este caso, deseo comparar con un modelo de 6 parámetros y los mismos 10 elementos de datos que tienen un R $^2$ -de 0,99944407. Por lo tanto, haciendo los números encontramos que en el primer caso tenemos un R $^2$ -valor de 0,9974168, y para el segundo caso 0,9987491, que es mejor, pero sólo tras el ajuste.

Entonces, ¿cuál es el argumento a favor de la fórmula de Wherry? De hecho, si tengo 10 elementos y 9 parámetros, todavía tengo un grado de libertad para cualquier modelo que no esté exactamente determinado . De esto deduzco que en algún momento de la derivación de esas fórmulas con $n-v-1$ en el denominador que el supuesto de determinismo exacto se hizo para $n-v-1$ pero veo pruebas de que este no es el caso de la regresión. Los comentarios son bienvenidos, ya que realmente me gustaría llegar al fondo de esto.

En seguimiento, @whuber pregunta cuáles son las fórmulas y si hay o no intercepción. La respuesta a la primera parte es que se trata de funciones estadísticas hasta ahora no documentadas que se utilizan durante la regresión no lineal con una estructura de error de norma proporcional, y la regresión de norma proporcional. Los datos están censurados, y no son candidatos a la regresión de máxima verosimilitud. Para la segunda parte, los interceptos son, casualmente $(0,0)$ porque inicialmente son FCD de soporte semi-infinito a partir de $t=0$ . Sin embargo, se trata de funciones estadísticas a trozos, como manda la física, y el concepto de intercepción no se refiere a un parámetro en ese contexto. Si sirve de ayuda, no se trata de $y=m x+b+ error$ pero las variaciones de $G[F(v_1,v_2,v_3,\dots,v_5,v_6)]+error*y$ Si eso es lo que está preguntando.

La pregunta anterior sobre las "intercepciones" puede referirse a un contexto diferente, tenemos desde el responder a Regresión ajustada 2 sin intercepción que $$R_{\text{adj.}}^{2}= 1 - \frac{n}{n-p} (1 - R^2).$$

Esto no es lo mismo que la fórmula de Wherry. Además, no veo cómo el $n-1$ en el numerador cambió para ser $n$ ni ignoraría en $y=m x+b$ que $b$ es un parámetro. Entonces, ¿qué pasa? Está claro que me falta algo. ¿Por qué? Considere interpolación polinómica que establece que un $P_n$ que tiene $n+1$ coeficientes, w.l.o.g., $a_0$ a través de $a_n$ puede pasar exactamente por $n+1$ Puntos 2D en forma de función base de Lagrange. Podemos llamar a esta propiedad de solución exacta que se produzca en eficiencia polinómica . Nótese que en la eficiencia polinómica el df y el número de coeficientes, incluyendo el término constante son iguales, y que nuestro valor R es exactamente 1. Algunas otras funciones tienen una eficacia polinómica exacta, por ejemplo, los productos de funciones de potencia, porque cuando se toma el logaritmo de un producto de funciones de potencia, es un polinomio en $\ln(y) = P_n[\ln (x)]$ . Sin embargo, muchas otras funciones no tienen la capacidad de mapear a puntos exactos con una eficiencia polinómica. La incapacidad de mapear $m$ puntos con $m$ parámetros que podemos denominar eficiencia cartográfica menos que polinómica (en $\mathbb{R}$ ). Sin embargo, cuando comparamos las funciones de ajuste para el R-cuadrado ajustado, nos convendría utilizar la eficiencia polinómica del ajuste como base para contar df porque en el caso polinómico tenemos una fórmula determinista de $m$ coeficientes para $m$ Puntos 2D. Entonces, ¿dónde está el denominador $n-v-1$ y qué tipo de función con eficacia superior al polinomio se supone que implica?

11voto

EdM Puntos 5716

Implementación estándar en R

Una posible confusión proviene del papel del intercepto en el factor de corrección utilizado por lm . Si está presente, aparece tanto en el numerador como en el denominador del factor de corrección.

Cita de una respuesta en la pregunta vinculada :

Extrayendo la línea más relevante que se obtiene:

ans$adj.r.squared <- 1 - (1 - ans$r.squared) * ((n - df.int)/rdf)

que corresponde en notación matemática a:

$$R^2_{adj} = 1 - (1 - R^2) \frac{n-1}{n-p-1}$$

asumiendo que hay un intercepto (es decir, df.int=1 ), $n$ es su tamaño de la muestra, y $p$ es el número de predictores. Por lo tanto, su error grados de libertad (es decir rdf ) es igual a n-p-1 .

Obsérvese la frase "suponiendo que haya un intercepto" en la primera cita anterior. La descripción anterior es válida para una situación en la que el número de predictores p no incluye el intercepto . Eso se puede comprobar en el código del lm.fit() función. Los grados de libertad residuales (llamados df.residual en el lm.fit código pero rdf en el summary.lm código) se calculan como

df.residual = n - z$rank

donde n es el número de observaciones y z$rank es el rango del modelo ajustado z el número de estimaciones de parámetros linealmente independientes devueltas. Si el modelo tiene suficiente n y hay un intercepto, ese rango es el número de predictores distintos del intercepto más 1 para el intercepto . Sin un intercepto, ese rango es sólo el número de predictores.

Así que si p se interpreta como el número de predictores sin incluir la intercepción la fórmula de la cita anterior se mantiene si el modelo incluye un intercepto. Si no hay intercepción, entonces df.int = 0 en el código citado anteriormente y el rdf en el denominador es simplemente n-p . Así, sin intercepción en su lugar:

$$R^2_{adj} = 1 - (1 - R^2) \frac{n}{n-p}$$

Así que se podría decir que son dos "reales ajustados $R^2$ fórmulas" utilizadas en lm dependiendo de si se incluye el intercepto en el modelo. Reconociendo que el denominador en cualquier caso es df.residual = n - z$rank , donde z$rank es el rango de su modelo, debería ayudar a reducir cualquier confusión.

De dónde provienen los factores de corrección

El Página de Wikipedia proporciona una explicación de dónde está el $n-p-1$ en el denominador y el $n-1$ en el numerador, cuando el modelo incluye un intercepto:

El principio de la "R" ajustada 2 se puede ver reescribiendo la estadística ''R'' ordinaria 2 como $$R^2 = {1-{\textit{VAR}_\text{res} \over \textit{VAR}_\text{tot}}}$$ donde $\text{VAR}_\text{res} = SS_\text{res}/n$ y $\text{VAR}_\text{tot} = SS_\text{tot}/n$ son las varianzas muestrales de los residuos estimados y de la variable dependiente, respectivamente, que pueden verse como estimaciones sesgadas de las varianzas poblacionales de los errores y de la variable dependiente. Estas estimaciones se sustituyen por versiones estadísticamente insesgadas: $\text{VAR}_\text{res} = SS_\text{res}/(n-p-1)$ y $\text{VAR}_\text{tot} = SS_\text{tot}/(n-1)$ .

La extensión de la fórmula anterior para un modelo sin intersección parece directa.

Otros ajustes

Aunque la norma anterior $R_{adj}^2$ incorpora efectivamente estimaciones insesgadas de la varianza total y residual, no es insesgada en sí misma. En particular, que $R_{adj}^2$ puede tomar valores negativos aunque el coeficiente de correlación múltiple al cuadrado de la población subyacente (entre los valores observados y los predichos linealmente) sea necesariamente no negativo. Este punto se plantea en el PO y en la respuesta de @Carl. Pero como Olkin y Pratt (1958) en su trabajo sobre el único estimador insesgado de varianza mínima uniforme de $\rho^2$ (página 211):

No podemos esperar un estimador insesgado no negativo, ya que no hay ninguna región en el espacio muestral que tenga probabilidad cero para $\rho^2=0$ y una probabilidad positiva para $\rho^2 > 0$ .

Existe una amplia bibliografía sobre los intentos de obtener mejores estimaciones ajustadas. Karch (2019) comparó recientemente 20 versiones diferentes de $R^2$ y proporcionó una implementación exacta del estimador Olkin-Pratt. La comparación incluyó tanto los estimadores originales como los correspondientes "estimadores de contracción de partes positivas" propuestos por Shieh (2008) que mantienen los valores no negativos tal cual y fijan los valores negativos en 0. El estimador Olkin-Pratt fue la elección clara para un imparcialidad mínimo error cuadrático medio (ECM), pero los estimadores insesgados podrían mejorar el ECM. Karch señala (página 20):

Ningún estimador tuvo un MSE uniformemente bajo en todas las condiciones. Más aún, ningún estimador fue uniformemente el mejor según las perspectivas de MSE máximo o medio. Sin embargo, en todas las condiciones, la versión de la parte positiva del Ezekiel más utilizado (ajustado $R^2$ ) es el que mejor funciona tanto desde la perspectiva del MSE máximo como del MSE medio.

Lo que Karch llama el estimador de Ezequiel es la fórmula utilizada en la norma R implementación descrita anteriormente, llamada fórmula de McNemar en la OP.

"El verdadero ajustado $R^2$ fórmula"

No existe una fórmula "real" que funcione mejor en todas las situaciones, como demuestra Karch. La elección se basa en las compensaciones que uno desea hacer con respecto al sesgo y al MSE, y en cómo se desea tratar la posibilidad de estimaciones muestrales negativas.

Sin embargo, Karch también ha demostrado que el estándar ajustado $R^2$ funciona notablemente bien en situaciones prácticas con proporciones razonables de observaciones a predictores y valores poblacionales no negativos de $\rho^2$ tan bajo como 0,01. Para situaciones más extremas, con una población aún más baja $\rho^2$ o apenas más observaciones que predictores, la propuesta en la respuesta de @Carl (transformación inversa de Fisher de un coeficiente de correlación ajustado transformado en z) podría tener algunas ventajas.

3voto

Hoogendijk Puntos 45

A continuación se ofrece una respuesta parcial, se agradecen las aportaciones y la pregunta sigue abierta.

Algunas de las cuestiones que plantearon importantes obstáculos para comprender lo que $R_{adj}^2$ es, se tratan aquí con el fin de abordar la cuestión "¿Podría la fórmula real de R-cuadrado ajustada dar un paso adelante?" Lo que no es una prueba de nada, es simplemente un intento de encontrar lo que es y no es una solución al problema del ajuste.

@EdM se refiere a esto responder , que hace referencia a Karch J (2019), que se refiere a los métodos de R-cuadrado ajustado de Olkin y Pratt (1958), y en el que afirma que el método de Olkin y Pratt no ha sido implementado en ningún software porque nadie le gusta hipergeométrico $\,_2F_1$ funciones. Olkin y Pratt, como su última función publicada escriben que $$R_{adj}^{2}=1-\frac{n-2 }{n-v}\left(1-R^2\right) \, _2F_1\left(1,1,\frac{1}{2} (n-v+2);1-R^2\right)\;,$$ sino escribir, como lo identificó Karch, $\,_2F_1(\alpha,\beta,\gamma;x)$ , como $F(\alpha,\beta;\gamma;x)$ . Afortunadamente, Olkin y Pratt enumeran la definición de suma infinita apropiada para un $\,_2F_1$ función, $\sum _{k=0}^{\infty } \frac{x^k (\alpha )_k (\beta )_k}{k! (\gamma )_k}$ . Sobre esta fórmula escriben: "No podemos esperar una estimador insesgado no negativo ya que no hay ninguna región en el espacio muestral que tenga probabilidad cero para $\rho^2 = 0$ y una probabilidad positiva para $\rho^2 > 0$ . Por la misma razón no puede haber un estimador insesgado positivo de $\rho$ tampoco". Lo que hace la solución de Olkin y Pratt (O-P) es encontrar un estimador de error mínimo de $R_{\text{adj}}^2$ . Esto da lugar a una familia de curvas que se parece bastante a la trama real e imaginaria que sigue, a continuación. Sin embargo, el caso en el que $v=1$ tiene una región en la que el factor de corrección de O-P está por encima de la línea de identidad, lo que concuerda con la advertencia de O-P de utilizar su fórmula sólo para $v\geq2$ .

La fórmula actual más utilizada aparece en la respuesta dada por @EdM a continuación como $$R^2_{adj} = 1 - (1 - R^2) \frac{n}{n-v}\;,$$ es decir, si contamos los parámetros constantes como parámetros (y no hacerlo sería indefendible). Sin embargo, tiene problemas.

Supongamos que examinamos lo que significa esa fórmula tomando sus límites. Primero pro forma tomemos el límite como $R\to 1$ que da 1, y por lo tanto no hay corrección, y eso tiene sentido. Sin embargo, tomemos ahora el límite como $R\to 0$ ,

$$\underset{R\to 0}{\text{lim}}\left[R^2_{adj} =1-\frac{n \left(1-R^2\right)}{n-v}\right]\to R^2_{adj}=-\frac{v}{n-v}$$

Ese resultado es un número negativo como $n>v$ Y hay varios problemas con eso.

(1) Significa que no existe una relación con el cuadrado del coeficiente de correlación de Pearson (véase más adelante), ya que el cuadrado de dicho coeficiente está acotado en $(0,1)$ y la fórmula de ajuste está acotada en $(-\frac{v}{n-v},1)$ que no tiene un significado claro.

(2) De manera más general, $R^2$ y el coeficiente de correlación de Pearson al cuadrado deberían tener, idealmente, propiedades similares y, de hecho, en el caso de la regresión lineal por mínimos cuadrados ordinarios monovariable (en x o en y) R-cuadrado es idéntico a r-cuadrado, el cuadrado del coeficiente de correlación de Pearson. Esto no es cierto si asignamos una pendiente o un intercepto que no es el mismo que el implicado por el coeficiente de correlación de Pearson, o durante la regresión bivariante.

(3) Se ha intentado justificar las respuestas valoradas negativamente para ambos $R_{adj}^2$ y $R^2$ que puede surgir de su definición de ANOVA, por ejemplo, como en la siguiente imagen de regresión lineal con intercepción fijada en cero usando Excel,

enter image description here

Y podríamos preguntarnos razonablemente cómo el $R^2$ -El valor puede ser $-1.165$ y lo que eso significa. Se podría argumentar que sólo estamos restando un cuadrado positivo, sin embargo, eso es incorrecto. Recordando el límite como $R\to 0$ arriba, $R^2_{adj}=-\frac{v}{n-v}$ es claramente el propio cuadrado el que es negativo. Las reglas de las matemáticas permiten, por tanto, tomar su raíz cuadrada, lo que da como resultado,

$$R_{adj}(R=0)=\pm\sqrt{\frac{v}{n-v}}\,i\;,$$

donde $i=\sqrt{-1}$ un número imaginario. Trazamos el $R$ -es decir, la raíz cuadrada de $R_{adj}^2$ de la fórmula anterior, que es entonces

$$R_{adj}=\pm\sqrt{1-\frac{n \left(1-R^2\right)}{n-v}}$$ para ver lo malo que es como familia de curvas para la raíz positiva para $n=10$ y $v=1\text{ to }9$ , ya que no podemos establecer $v=10$ . La buena noticia es que si $v=0$ la fórmula al menos devolverá la identidad. Trazando $R^2$ en lugar de $R$ -valores no cambiaría nada, negativo $R^2$ -Los valores no son reales, es decir, no se puede elevar al cuadrado un número real y obtener un valor negativo.

enter image description here

Como podemos ver en el gráfico, las respuestas del número imaginario (Im) como líneas azules discontinuas para $R_{adj}$ se producen con valores R más pequeños cuando los grados de libertad $(v)$ son los menos, y se vuelven progresivamente más problemáticos a medida que aumenta su número. Las respuestas del número real (Re) aparecen en líneas azules sólidas. Confiar en este tipo de ajuste parece cuestionable a menos que el $R_{adj}$ -Los valores se acercan a 1.

(4) Puede ser que lo que se haga durante el ANOVA sea ignorar un "término de interacción", un producto cruzado u "otro" término en la fórmula del ANOVA para $R^2$ Por ejemplo, véase esta entrada Regresión no lineal Pérdida de SSE .

Por lo tanto, estamos atascados tratando de exprimir la sangre de un nabo para darle algún sentido al mundo real. ¿Se puede hacer algo para darle vida a esto? Recuerden el $\pm$ signo cuando sacamos la raíz cuadrada? Se podrían redefinir los valores R ajustados a trozos para que sean $$\left\{ \begin{array}{@{}ll@{}} \sqrt{1-\frac{n \left(1-R^2\right)}{n-v}}, & 1-\frac{n \left(1-R^2\right)}{n-v}>0 \\ -\sqrt{\frac{n \left(1-R^2\right)}{n-v}-1}, & 1-\frac{n \left(1-R^2\right)}{n-v}\leq 0 \\ \end{array}\right. $$ Esto no es exactamente lo mismo que los valores R ajustados, porque también tendríamos que redefinir lo que significa elevar al cuadrado esta fórmula a trozos, pero al menos convertiría los valores complejos en reales. En efecto, esto redefine cuándo los valores R ajustados son positivos y cuándo son negativos y es el resultado de colar un valor absoluto para borrar los números complejos . Se ve así: enter image description here y ahora tiene las propiedades que podríamos desear, excepto que los valores negativos siguen siendo inexplicables para R en $(0,1)$ .

Resulta que hay una manera de definir el valor R ajustado, o al menos un buen comienzo para ello, aunque no sigamos aquí todas sus implicaciones, ya que no se puede hacer mucho en una sola sesión. Es decir, podemos redefinir $R_{adj}^2$ para eliminar el sesgo de la correlación, que según algunas autoridades no es posible. Es decir, podemos sustituir las medias muestrales de $x$ y $y$ con sus valores medios insesgados de la población como sigue; La r-cuadrada ajustada se define como el cuadrado de la media poblacional corregida del coeficiente de correlación de Pearson (r). Eso es,

$$r_{adj}^2=\left[\frac{\sum _{i=1}^n (x_i-w) (y_i-z)}{\sqrt{\sum _{i=1}^n (x_i-w)^2} \sqrt{\sum _{i=1}^n (y_i-z)^2}}\right]^2,$$ donde $w$ y $z$ son los valores medios de la población para $x$ y $y$ respectivamente. Si no se nos dan los valores medios de la población, no podemos producir un valor único para el R-cuadrado ajustado en un caso particular, pero podríamos producir un estimador único bajo ciertas suposiciones adicionales, por ejemplo, a partir de estudios de simulación (véase más adelante), o si se conocen los valores medios de la población. Con esta nueva definición, en ningún caso la R-cuadrada ajustada será negativa, lo que constituye un rasgo distintivo de esta redefinición. Para el ejemplo de tres pares de coordenadas (1,10}, {5,2} y {3,-5}, una superficie R-cuadrado ajustada a la media de la población tiene el siguiente aspecto. (Obsérvese que esto muestra lo que es el ajuste para $w$ y $z$ pero no muestra la probabilidad de $(w,z)$ es como un modelo bivariante, véase un Modelo t de Student bivariante como ejemplo).

enter image description here

La superficie naranja es el R-cuadrado ajustado a la población. La superficie plana azul translúcida es el coeficiente de correlación de Pearson ordinario al cuadrado. Obsérvese que, mediante una fórmula actual, el programa informático que utilicé indicaba el $

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X