25 votos

Importancia de los factores predictivos de regresión múltiple: Parcial $R^2$ vs estandarizados coeficientes de

Me pregunto cuál es la relación exacta entre parcial $R^2$ y los coeficientes en un modelo lineal es y si debo utilizar sólo uno o ambos, para ilustrar la importancia y la influencia de factores.

Hasta donde yo sé, summary I obtener las estimaciones de los coeficientes, y con anova la suma de cuadrados para cada factor de la proporción de la suma de los cuadrados de un factor dividido por la suma de la suma de los cuadrados de los más de los residuos es parcial $R^2$ (el siguiente código en R).

library(car)
mod<-lm(education~income+young+urban,data=Anscombe)
    summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe)

Residuals:
    Min      1Q  Median      3Q     Max 
-60.240 -15.738  -1.156  15.883  51.380 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept) -2.868e+02  6.492e+01  -4.418 5.82e-05 ***
income       8.065e-02  9.299e-03   8.674 2.56e-11 ***
young        8.173e-01  1.598e-01   5.115 5.69e-06 ***
urban       -1.058e-01  3.428e-02  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 26.69 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df Sum Sq Mean Sq F value    Pr(>F)    
income     1  48087   48087 67.4869 1.219e-10 ***
young      1  19537   19537 27.4192 3.767e-06 ***
urban      1   6787    6787  9.5255  0.003393 ** 
Residuals 47  33489     713                      
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

El tamaño de los coeficientes de la 'joven' (0.8) y "urbana" (-0.1, de alrededor de 1/8 de la antigua, ignorando '-') no coincide con la varianza explicada ('joven' ~19500 y 'urban' ~6790, es decir, alrededor de 1/3).

Así que pensé que sería necesario aumentar la escala de mis datos porque supuse que si un factor de la gama es mucho más amplia que la de otro factor de la gama de sus coeficientes sería difícil comparar:

Anscombe.sc<-data.frame(scale(Anscombe))
mod<-lm(education~income+young+urban,data=Anscombe.sc)
summary(mod)

Call:
lm(formula = education ~ income + young + urban, data = Anscombe.sc)

Residuals:
     Min       1Q   Median       3Q      Max 
-1.29675 -0.33879 -0.02489  0.34191  1.10602 

Coefficients:
              Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.084e-16  8.046e-02   0.000  1.00000    
income       9.723e-01  1.121e-01   8.674 2.56e-11 ***
young        4.216e-01  8.242e-02   5.115 5.69e-06 ***
urban       -3.447e-01  1.117e-01  -3.086  0.00339 ** 
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1

Residual standard error: 0.5746 on 47 degrees of freedom
Multiple R-squared:  0.6896,    Adjusted R-squared:  0.6698 
F-statistic: 34.81 on 3 and 47 DF,  p-value: 5.337e-12

anova(mod)
Analysis of Variance Table

Response: education
          Df  Sum Sq Mean Sq F value    Pr(>F)    
income     1 22.2830 22.2830 67.4869 1.219e-10 ***
young      1  9.0533  9.0533 27.4192 3.767e-06 ***
urban      1  3.1451  3.1451  9.5255  0.003393 ** 
Residuals 47 15.5186  0.3302                      
---
Signif. codes:  0 ‘***' 0.001 ‘**' 0.01 ‘*' 0.05 ‘.' 0.1 ‘ ' 1    

Pero eso no realmente hacer una diferencia, parcial $R^2$ y el tamaño de los coeficientes (estos son ahora los coeficientes estandarizados) todavía no coinciden:

22.3/(22.3+9.1+3.1+15.5)
# income: partial R2 0.446, Coeff 0.97
9.1/(22.3+9.1+3.1+15.5)
# young:  partial R2 0.182, Coeff 0.42
3.1/(22.3+9.1+3.1+15.5)
# urban:  partial R2 0.062, Coeff -0.34

Por lo tanto, es justo decir que 'los jóvenes', explica tres veces la cantidad de la varianza como "urbana" porque parcial $R^2$ 'joven' es tres veces mayor que la de 'urbano'? ¿Por qué es el coeficiente de 'jóvenes', no tres veces mayor que la de 'urbano' (sin tener en cuenta el signo)?

Supongo que la respuesta a esta pregunta, a continuación, también me dicen que la respuesta a mi pregunta inicial: ¿debo utilizar el parcial $R^2$ o coeficientes para ilustrar la importancia relativa de los factores? (Haciendo caso omiso de la dirección de la influencia de inicio de sesión por el momento.)

Editar:

Parcial de eta-cuadrado parece ser otro nombre para lo que yo llamaba parcial $R^2$. etasq {heplots} es una función útil que produce resultados similares:

etasq(mod)
          Partial eta^2
income        0.6154918
young         0.3576083
urban         0.1685162
Residuals            NA

13voto

Chris Novak Puntos 460

En resumen, yo no lo uso tanto en el parcial $R^2$ y los coeficientes tipificados en el mismo análisis, ya que no son independientes. Yo diría que por lo general es probablemente más intuitiva para comparar las relaciones mediante la estandarización de los coeficientes, ya que se refieren fácilmente a la definición del modelo (es decir,$Y = \beta X$). El parcial $R^2$, a su vez, es esencialmente la proporción única de varianza compartida entre los predictores y la variable dependiente (vd) (así que para el primer predictor es el cuadrado de la correlación parcial $r_{x_1y.x_2...x_n}$). Además, para un ajuste con un muy pequeño error de todos los coeficientes parcial, $R^2$ tienden a 1, por lo que no son útiles en la identificación de la importancia relativa de los predictores.


El tamaño del efecto de las definiciones

  • estandarizado coeficiente, $\beta_{std}$ - los coeficientes de $\beta$ obtenido a partir de la estimación de un modelo en el estandarizada de las variables (media = 0, desviación estándar = 1).
  • parcial $R^2$- La proporción de la variación residual explica mediante la adición de la predictor a la limitación de modelo (el modelo completo sin el predictor). Mismo como:

    • el cuadrado de la correlación parcial entre los predictores y la variable dependiente, de controlar todos los otros predictores en el modelo. $R_{partial}^2 = r_{x_iy.X\setminus x_i}^2$.
    • parcial $\eta^2$ - la proporción de tipo III suma de cuadrados del factor de predicción a la suma de los cuadrados de los atribuidos a la predictor y el error de $\text{SS}_\text{effect}/(\text{SS}_\text{effect}+\text{SS}_\text{error})$
  • $\Delta R^2$ - La diferencia en $R^2$ entre el restringido y el modelo completo. Igual a:

    • el cuadrado de la semipartial correlación $r_{x_i(y.X\setminus x_i)}^2$
    • $\eta^2$ tipo III suma de cuadrados de $\text{SS}_\text{effect}/\text{SS}_\text{total}$ - lo que estaban calcular como parcial $R^2$ en la pregunta.

Todos estos están estrechamente relacionados, pero difieren en cuanto a cómo manejar la estructura de las correlaciones entre las variables. Para entender esta diferencia un poco mejor, supongamos que tenemos 3 estandarizado (mean = 0, sd = 1) variables $x,y,z$ cuyas correlaciones se $r_{xy}, r_{xz}, r_{yz}$. Tomaremos $x$ como la variable dependiente y $y$ $z$ como predictores. Vamos a expresar todo el tamaño del efecto de los coeficientes en términos de las correlaciones para que podamos explícitamente ver cómo la estructura de las correlaciones es manejado por cada uno. En primer lugar vamos a la lista de los coeficientes en el modelo de regresión $x=\beta_{y}Y+\beta_{z}Z$ estimado mediante MODELOS. La fórmula para los coeficientes: \begin{align}\beta_{y} = \frac{r_{xy}-r_{yz}r_{zx}}{1-r_{yz}^2}\\ \beta_{z}= \frac{r_{xz}-r_{yz}r_{yx}}{1-r_{yz}^2}, \end{align} La raíz cuadrada de la $R_\text{partial}^2$ de los predictores será igual a:

$$\sqrt{R^2_{xy.z}} = \frac{r_{xy}-r_{yz}r_{zx}}{\sqrt{(1-r_{xz}^2)(1-r_{yz}^2)}}\\ \sqrt{R^2_{xz.y}} = \frac{r_{xz}-r_{yz}r_{yx}}{\sqrt{(1-r_{xy}^2)(1-r_{yz}^2)}} $$

the $\sqrt{\Delta del R^2}$ is given by:

$$\sqrt{R^2_{xyz}-R^2_{xz}}= r_{y(x.z)} = \frac{r_{xy}-r_{yz}r_{zx}}{\sqrt{(1-r_{yz}^2)}}\\ \sqrt{R^2_{xyz}-R^2_{xy}}= r_{z(x.y)}= \frac{r_{xz}-r_{yz}r_{yx}}{\sqrt{(1-r_{yz}^2)}} $$

The difference between these is the denominator, which for the $\beta$ and $\sqrt{\Delta del R^2}$ contains only the correlation between the predictors. Please note that in most contexts (for weakly correlated predictors) the size of these two will be very similar, so the decision will not impact your interpretation too much. Also, if the predictors that have a similar strength of correlation with the dependent variable and are not too strongly correlated the ratios of the $\sqrt{ R_\text{parcial}^2}$ will be similar to the ratios of $\beta_{std}$.

Getting back to your code. The anova function in R uses type I sum of squares by default, whereas the partial $R^2$ as described above should be calculated based on a type III sum of squares (which I believe is equivalent to a type II sum of squares if no interaction is present in your model). The difference is how the explained SS is partitioned among the predictors. In type I SS the first predictor is assigned all the explained SS, the second only the "left over SS" and the third only the left over SS from that, therefore the order in which you enter your variables in your lm call changes their respective SS. This is most probably not what you want when interpreting model coefficients.

If you use a type II sum of squares in your Anova call from the car package in R, then the $F$ values for your anova will be equal to the $t$ values squared for your coefficients (since $F(1,n) = t^2(n)$). This indicates that indeed these quantities are closely tied, and should not be assessed independently. To invoke a type II sum of squares in your example replace anova(mod) with Anova(mod, type = 2). If you include an interaction term you will need to replace it with type III sum of squares for the coefficient and partial R tests to be the same (just remember to change contrasts to sum using options(contrasts = c("contr.sum","contr.poly")) before calling Anova(mod,type=3)). Partial $R^2$ is the variable SS divided by the variable SS plus the residual SS. This will yield the same values as you listed from the etasq() output. Now the tests and $p$-values for your anova results (partial $R^2$) y sus coeficientes de regresión son los mismos.


De crédito

  • La fórmula de la correlación parcial se da en ttnphns respuesta aquí: regresión Múltiple o de correlación parcial?

  • La fórmula para la semi de correlación parcial que he encontrado aquí: https://www3.nd.edu/~rwilliam/stats1/x92.pdf
  • La observación de que la parcial $R^2$ de todos los predictores será 1 para un ajuste perfecto, y por lo tanto no es útil para comparar su importancia relativa fue proporcionada por la ameba en los comentarios a esta pregunta.

12voto

zowens Puntos 1417

Como ya se ha explicado en varias otras respuestas y comentarios, esta pregunta se basa en al menos tres confusiones:

  1. La función anova() utiliza secuencial (también se llama de tipo I) suma de cuadrados (SS) la descomposición que depende del orden de los predictores. Una descomposición correspondiente a los coeficientes de regresión y $t$-pruebas de su importancia, es de tipo III SS, que se puede obtener con Anova() función de car paquete.

  2. Incluso si utiliza el tipo III SS descomposición, a continuación, parcial $R^2$ para cada predictor no va a ser igual a los cuadrados de las estandarizados coeficientes de $\beta_\mathrm{std}$. Las proporciones de estos valores para dos diferentes predictores también será diferente. Ambos valores son medidas de tamaño del efecto (o importancia), pero son diferentes, no equivalente, medidas. Se podría cualitativamente de acuerdo en la mayoría de las veces, pero no tiene que hacerlo.

  3. Lo que usted llama parcial R cuadrado no es parcial R cuadrado. Parcial $R^2$ se define como $\text{SS}_\text{effect}/(\text{SS}_\text{effect}+\text{SS}_\text{error})$. En contraste, $\text{SS}_\text{effect}/\text{SS}_\text{total}$ puede ser llamado "de eta al cuadrado" (tomando prestado un término de la ANOVA), o el cuadrado de la semipartial correlación, o tal vez semipartial $R^2$ (en ambas fórmulas $\text{SS}_\text{effect}$ está comprendido en el tipo III, forma). Esta terminología no es muy estándar. Es otra posible medida de importancia.

Después de estas confusiones se aclaró, la pregunta sigue siendo ¿cuáles son las medidas más adecuadas de predictor del tamaño del efecto, o la importancia.


En R, existe un paquete relaimpo , que proporciona varias medidas de importancia relativa.

library(car)
library(relaimpo)
mod <- lm(education~income+young+urban, data=Anscombe)
metrics <- calc.relimp(mod, type = c("lmg", "first", "last", "betasq", "pratt", "genizi", "car"))

Utilizando el mismo Anscombe conjunto de datos como en su pregunta, esto da como resultado las siguientes métricas:

Relative importance metrics: 

              lmg      last      first    betasq       pratt     genizi        car
income 0.47702843 0.4968187 0.44565951 0.9453764  0.64908857 0.47690056 0.55375085
young  0.14069003 0.1727782 0.09702319 0.1777135  0.13131006 0.13751552 0.13572338
urban  0.07191039 0.0629027 0.06933945 0.1188235 -0.09076978 0.07521276 0.00015460

Algunas de estas medidas ya han sido discutidos:

  • betasq son cuadrados estandarizados coeficientes, los mismos valores obtenidos con lm().
  • first es el cuadrado de la correlación entre cada factor de predicción y respuesta. Esto es igual a $\text{SS}_\text{effect}/\text{SS}_\text{total}$ al $\text{SS}_\text{effect}$ es de tipo I SS cuando este predictor es la primera en el modelo. El valor de 'ingresos' (0.446) coincide con su cálculo basándose en anova() de salida. Otros valores no coinciden.
  • last es un aumento en el $R^2$ cuando este predictor es agregado por última vez en el modelo. Esto es $\text{SS}_\text{effect}/\text{SS}_\text{total}$ al $\text{SS}_\text{effect}$ es de tipo III SS; sobre lo llamé "semipartial $R^2$". El valor de 'urbano' (de 0,063) coincide con su cálculo basándose en anova() de salida. Otros valores no coinciden.

Tenga en cuenta que el paquete no ofrecen actualmente parcial $R^2$ como tal (pero, según el autor, podría agregarse en el futuro [comunicación personal]). De todos modos, no es difícil de calcular por otros medios.

Hay cuatro métricas en relaimpo - y uno más (quinto) está disponible si el paquete relaimpo está instalado manualmente: CRAN versión excluye de esta medida, debido a un posible conflicto con el autor, que, loco como suena, tiene una patente de EE.UU. en su método. Estoy corriendo R en línea y no tienen acceso a ella, así que si alguien puede instalar manualmente relaimpo, por favor agregue esta métrica adicional a mi salida por encima de la integridad.

Dos métricas pratt que puede ser negativa (mala) y genizi que es bastante oscuro.

Dos interesantes enfoques lmg y car.

La primera es de un promedio de $\text{SS}_\text{effect}/\text{SS}_\text{total}$ sobre todas las permutaciones posibles de los predictores (aquí $\text{SS}_\text{effect}$ es de tipo I). Se trata de 1980 un libro por Lindeman Y Ganchillo Y Oro.

La segunda es introducido en (Zuber Y Strimmer, 2011) y tiene muchos atractivos teórico de las propiedades; es cuadrado estandarizados coeficientes después de predictores han sido estandarizados y, a continuación, blanqueados con ZCA/Mahalanobis transformación (es decir, blanqueados mientras se minimiza el error de reconstrucción).

Tenga en cuenta que la proporción de la contribución de los 'jóvenes' a 'urbano' es de alrededor de $2:1$ lmg (esto coincide más o menos lo que vemos con los coeficientes estandarizados y semipartial correlaciones), pero es $878:1$ car. La razón de esta gran diferencia no está claro para mí.

Bibliografía:

  1. Referencias sobre la importancia relativa de Ulrike Grömping's sitio web -- ella es la autora de relaimpo.

  2. Grömping, U. (2006). Importancia relativa para la Regresión Lineal en R: El Paquete relaimpo. Journal of Statistical Software 17, número 1.

  3. Grömping, U. (2007). Estimadores de Importancia Relativa en la Regresión Lineal Basado en la Descomposición de la Varianza. El Estadístico Americano 61, 139-147.

  4. Zuber, V. y Strimmer, K. (2010). Alta dimensión de la regresión y la selección de variables mediante AUTO de las puntuaciones. Aplicaciones estadísticas en la Genética y la Biología Molecular 10.1 (2011): 1-27.

  5. Grömping, U. (2015). Variable de importancia en los modelos de regresión. Wiley Interdisciplinario Comentarios: Estadística Computacional, 7(2), 137-152. (detrás de pago de la pared)

5voto

auselen Puntos 121

Usted escribió:

Mi pregunta es: debo usar parcial R2 o los coeficientes para mostrar cómo influye cada factor tiene en el resultado?

Es importante no confundir las dos cosas aquí. En primer lugar, está la cuestión de la especificación del modelo. La película algoritmo asume que el OLS-supuestos se cumplen. Entre otras cosas esto significa que para las estimaciones imparciales, NO obteniendo variable puede ser que falta en el modelo (excepto cuando está correlacionado a todos los otros regresores, raro).
Así que en la búsqueda de un modelo, el más influencia en R2 o R2 ajustado es, por supuesto, de interés. Uno podría pensar que es adecuado para agregar regresores hasta el R2 ajustado deja de mejorar, por ejemplo. Hay interesantes problemas con la regresión paso a paso de los procedimientos como este, pero este no es el tema. En cualquier caso, supongo que había una razón por la que eligió el modelo.

Sin EMBARGO: este adicional influencia en el R2 no es idéntica a la real o total de la influencia de la variable sobre la variable independiente, precisamente a causa de multicollinerity: Si le quitas el regresor, parte de su influencia ahora se atribuye a los otros regresores que se correlacionan. Así que ahora la verdadera influencia no se muestra correctamente.

Y hay otro problema: Las estimaciones son válidas sólo para el modelo completo con todos los otros regresores presentes. Este modelo aún no es correcta y por lo tanto, la discusión acerca de la influencia es de sentido - o es correcta y, a continuación, usted no puede eliminar un regresor y todavía utilizar el OLS métodos con éxito.

Así que: es su número de modelo y el uso de la OPERACIÓN adecuada? Si es así, entonces las estimaciones de responder a su pregunta - son su literal de la mejor estimación de la influencia de las variables en el regressand / variable dependiente.
Si no, entonces su primera tarea es encontrar un modelo correcto. Para esto el uso de R2 parcial puede ser una manera. Una búsqueda en la especificación del modelo o de regresión paso a paso se producen una gran cantidad de ideas interesantes en este foro. Lo que funciona dependerá de sus datos.

3voto

Uri Puntos 111

En cuanto a la diferencia entre la regresión lineal y el coeficiente de correlación parcial usted puede leer esto, por ejemplo.

Sin embargo, la confusión se expresa en la pregunta parece ser de otra naturaleza. Parece ser sobre el tipo predeterminado de sumas de cuadrados utilizados por este o aquel paquete estadístico (tema, en repetidas ocasiones se discuten en nuestro sitio). La regresión lineal se utiliza lo que se llama en ANOVA de Tipo III SS ajuste de cuentas. En muchos ANOVA de los programas que es la opción predeterminada. En R función anova, me parece (no soy usuario R, así que me supongo que es) el defecto de cálculo es de Tipo I SS (un "secuencial SS", que es dependiente de la orden de los predictores se especifican en el modelo). Así, la discrepancia que se observa y que no desaparecen cuando se estandarizada ("escala") de las variables es porque especificó el ANOVA con el valor predeterminado de Tipo de opción.

A continuación se presentan los resultados obtenidos en el programa SPSS, con sus datos:

enter image description hereenter image description hereenter image description hereenter image description here

Usted puede elegir en estas impresiones que los parámetros (regressional coeficientes) son los mismos, independientemente del tipo de SS de cálculo. Usted puede notar también que el parcial de Eta al cuadrado [que es SSeffect/(SSeffect+SSerror) y = parcial R-cuadrado en nuestro caso debido a que los predictores son numéricos covariables] es totalmente el mismo en la tabla de efectos y de los coeficientes solo cuando el tipo SS es III. Cuando el tipo SS es yo, sólo la última de las 3 predictores, "urbano", conserva el mismo valor (.169); esto es debido a que en la secuencia de entrada de los predictores es el último. En el caso de la tipo III SS el orden de entrada no importa, como en la regresión. Por cierto, la discrepancia es obseved en los p-valores. Aunque usted no lo ve en mis tablas, porque sólo hay 3 dígitos decimales en "Sig" la columna, los valores de p son diferentes entre los parámetros y los efectos - a excepción de la última predictor o excepto cuando el tipo de SS III.

Es posible que desee leer más acerca de las diferentes "SS" tipos de ANOVA / modelo lineal. Conceptualmente, tipo III o "regresión" tipo de SS es fundamental y primordial. Otros tipos de SS (I, II, IV, existen incluso más) son dispositivos especiales para la estimación de los efectos de manera más integral, menos derrochador de los parámetros de regresión permiten en la situación de la correlación de los predictores.

En general, los efectos tamaños y sus p-valores son más importantes para el informe de los parámetros y sus valores de p, a menos que el objetivo del estudio es crear el modelo para el futuro. Los parámetros son los que permiten predecir, pero la "influencia" o "efecto" puede ser un concepto más amplio que el de "la fuerza de la predicción lineal". Para informar de influencia o importancia de los otros coeficientes son posibles además de los parciales de Eta al cuadrado. Uno es el dejar-uno-fuera coeficiente: la importancia de un predictor es la suma de cuadrados residual con el predictor quitado el modelo normalizado, de manera que los valores de importancia para todos los predictores suma a 1.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X