25 votos

¿Es un ponderado $R^2$ en robusto modelo lineal significativa para bondad de ajuste análisis?

Yo estima un robusto modelo lineal en R con MM peso con el rlm() en la MASA del paquete. `R` no ofrecen $R^2$ valor para el modelo, pero me gustaría tener uno, si es una cantidad significativa. También estoy interesado en saber si hay algún significado en tener un $R^2$ valor que pesa el total y la varianza residual de la misma manera que las observaciones fueron ponderados en la regresión robusta. Mi opinión general es que, si, a los efectos de la regresión, somos esencialmente con los pesos que dan algunas de las estimaciones de menor influencia, porque son valores atípicos en alguna manera, tal vez para el cálculo de $r^2$ también debemos dar esas mismas estimaciones menos influencia?

Escribí dos funciones simples para la $R^2$ y el promedio ponderado de $R^2$, están por debajo. Yo también se incluyen los resultados de la ejecución de estas funciones para mi modelo que se llama HI9. EDIT: he encontrado la página web de Adelle Coster de UNSW que da una fórmula para R2 que incluye el vector de pesos en el cálculo el cálculo de los dos SSe y SSt como lo hice yo, y le pidió más formal de referencia: http://web.maths.unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (todavía en busca de la ayuda de la Cruz Validado sobre cómo interpretar este ponderado $r^2$.)

#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){  
+ SSe <- sum((x$resid)^2);  
+ observed <- x$resid+x$fitted;  
+ SSt <- sum((observed-mean(observed))^2);  
+ value <- 1-SSe/SSt;  
+ return(value);  
+ }  
r2(HI9)  
[1] 0.2061147

#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted      
+ value <- 1-SSe/SSt;
+ return(value);
+ }
 > r2ww(HI9)
[1] 0.7716264

Gracias a cualquier persona que pasa tiempo en responder a esta. Por favor, acepte mis disculpas si ya hay algunas muy buenas referencias sobre esto que me falta, o si mi código de arriba es difícil de leer (yo no soy un código de tipo).

28voto

Juddling Puntos 205

La siguiente respuesta se basa en: (1) mi interpretación de Willett y Singer (1988) Otra Nota de Advertencia acerca de R-cuadrado: Es el uso en la ponderado menos squates análisis de regresión. El Estadístico Americano. 42(3). pp236-238, y (2) la premisa de que el fuerte de regresión lineal es esencialmente de regresión de mínimos cuadrados ponderados con pesos estimados por un proceso iterativo.

La fórmula que me dio en la pregunta para r2w necesita una pequeña corrección que corresponden a la ecuación (4) en Willet y Singer (1988) para r2wls: la SSt cálculo debe también utilizar una media ponderada:

the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].

¿Cuál es el significado de este (corregido) ponderado r-cuadrado? Willett y Cantante interpreta como: "el coeficiente de determinación en la transformada [ponderado] conjunto de datos. Es una medida de la proporción de la variación en la ponderado Y que puede ser explicada por la ponderado de X, y es la cantidad que la salida como R2 por las principales estadísticas del ordenador de los paquetes cuando un WLS de regresión se realiza".

Es significativo como una medida de bondad de ajuste? Esto depende de cómo se presenta y se interpreta. Willett y Cantante de precaución que es típicamente un poco más alto que el r-cuadrado obtenido de los mínimos cuadrados ordinarios de regresión, y el alto valor que fomenta la exhibición... pero esta pantalla puede ser engañosa SI se interpreta en el sentido convencional de r-cuadrado (como la proporción de no ponderada de la variación explicada por un modelo). Willett y Cantante proponer que una menos "engañoso" alternativa es pseudoR2wls (ecuación 7), que es equivalente a mi función de r2 en la pregunta original. En general, Willett y Cantante también advierten que no es bueno confiar en cualquier r2 (incluso sus pseudor2wls) como una única medida de la bondad de ajuste. A pesar de estas precauciones, toda la premisa de regresión robusta es que algunos casos son juzgadas como "no tan buena" y no se cuentan como mucho en el ajuste del modelo, y puede ser bueno para reflejar esto en la parte de la evaluación del modelo de proceso. El promedio ponderado de r-cuadrado descrito, puede ser una buena medida de la bondad de ajuste - como la correcta interpretación se da claramente en la presentación y no es invocado como el único de evaluación de la bondad del ajuste.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X