Estoy tratando de entender la importancia relativa y he encontrado el paquete relaimpo para R. En él se ejecuta un modelo lm en el conjunto de datos suizos. Los resultados indican que el examen es insignificante según el valor p.
Estimate Std. Error t value Pr(>|t|)
(Intercept) 66.91518 10.70604 6.250 1.91e-07 ***
Agriculture -0.17211 0.07030 -2.448 0.01873 *
Examination -0.25801 0.25388 -1.016 0.31546
Education -0.87094 0.18303 -4.758 2.43e-05 ***
Catholic 0.10412 0.03526 2.953 0.00519 **
Infant.Mortality 1.07705 0.38172 2.822 0.00734 **
---
Signif. codes: 0 ’***’ 0.001 ’**’ 0.01 ’*’ 0.05 ’.’ 0.1 ’ ’ 1
Residual standard error: 7.165 on 41 degrees of freedom
Multiple R-Squared: 0.7067, Adjusted R-squared: 0.671
F-statistic: 19.76 on 5 and 41 DF, p-value: 5.594e-10
A continuación, aplican una sencilla métrica de importancia relativa al conjunto de datos utilizando la primera métrica, que se describe como una comparación de lo que cada regresor por sí solo es capaz de explicar, lo que da como resultado que el examen es la segunda variable más importante.
metrics$first
Agriculture Examination Education Catholic Infant.Mortality
0.1246649 0.4171645 0.4406156 0.2150035 0.1735189
Mi pregunta es ¿cómo interpreto esto? Según el valor p, esta variable es insignificante, pero su importancia relativa es la segunda más alta. ¿No debería haberse utilizado el examen en el modelo lm? ¿Debería utilizarse alguna vez el valor p para la selección de características?
Enlace a la ponencia: https://core.ac.uk/download/pdf/6305006.pdf