9 votos

Importancia relativa de las variables con AIC

Estoy confundido y solo necesito confirmación sobre cómo calcular el valor de importancia relativa de variables para las covariables que utilicé en los procedimientos de selección de modelos AIC. Sé que hay esta discusión pero no confirma explícitamente lo que debo hacer.

Burnham y Anderson (2002) describen una forma simple de cuantificar la importancia de variables.

Página 168: Las estimaciones de la importancia relativa de las variables predictoras xj se pueden hacer mejor sumando los pesos de AIC a través de todos los modelos en el conjunto donde la variable j ocurre.

Sin embargo, para usar este método, se debe tener el mismo número de modelos para cada variable; de lo contrario, algunas variables estarán sobre representadas o sub representadas, lo que resultará en valores de importancia relativa sesgados.

Página 169: Al evaluar la importancia relativa de variables usando sumas de los pesos de AIC, es importante lograr un equilibrio en el número de modelos que contienen cada variable j.

¿Significa esto que si tengo un conjunto de modelos con sus pesos de modelo del procedimiento AIC (estos no están clasificados por peso, solo el orden en que los creé):

1   INTERCEPT            
2   REPRO   TIME         
3   REPRO   TIME    R*T  
4   REPRO   TIME  WR  
5   REPRO   TIME  WR  WR*R 
6   REPRO   TIME  WR  WR*T 
7   WR

Para calcular el peso variable relativo sumaría el peso para cada incidente en el que TIME estaba en los modelos y lo haría así para cada una de las otras variables. Sin embargo, esto no es completamente correcto, ¿verdad? Porque no hay un equilibrio en el número de modelos que contienen cada variable, ¿verdad? Entonces, ¿para corregir esto dividiría la suma de estos pesos por el número de modelos que tenían esa variable? (Kittle et al 2008 "el impacto a escala dependiente del riesgo de predación de lobos..." hace esto). Por ejemplo, si la suma de los pesos para el tiempo fue de 0.75 lo dividiría por 5 porque estaba en 5 de los modelos, de la misma manera, WR se dividiría por 4.

Es una pregunta tonta pero realmente cambia los resultados e interpretación de mi análisis. Por ejemplo, WR_T está solo en 1 modelo y resulta estar en uno de los mejores modelos con un alto peso de modelo, pero Time y Repro también están en este modelo superior pero también en otros 4 modelos candidatos. Por lo tanto, dividir el peso de T & R por 5 reduce la importancia de T o R de (0.999), dándoles un valor de IAV de 0.2 y el IAV al valor de WR_T de 0.7. ¿Es correcto?

Además de esto, mi siguiente pregunta sería - ¿hago esto solo sobre los "MEJORES" modelos (dentro de 2AIC o cualquier criterio) o sobre los 7 independientemente de cuál haya surgido en la parte superior? Utilicé el paquete MuMIn y usé el comando importance, pero luego, cuando usas los mejores modelos, pregunta si quieres volver a calcular la importancia, lo cual se recalcula solo para los modelos principales. ¿Cuál es más apropiado usar? Esto no tiene sentido cuando solo 1 modelo es el mejor. Entonces asumiría que debería calcularlo sobre todos los modelos.

2voto

jonbho Puntos 215

Este es un consejo/discusión adicional que me dieron:

El AIC RIW solo se puede calcular a partir de un conjunto de modelos candidatos equilibrado. Si tienes 3 variables (por ejemplo, repro, tiempo y WR) entonces el conjunto equilibrado (sin interacciones) es

repro
tiempo
WR
repro + tiempo
repro + WR
tiempo + WR
repro + tiempo + WR
solo intercepción

el número de modelos en el conjunto es 2 elevado a la potencia del número de variables explicativas (en este caso = 8) con interacciones de 2 vías tu conjunto de modelos candidatos TAMBIÉN incluye lo siguiente (es decir, además de los mencionados anteriormente)

repro + tiempo + repro*tiempo
repro + WR + repro*WR
tiempo + WR + tiempo*WR
repro + tiempo + WR + repro*tiempo
repro + tiempo + WR + repro*WR
repro + tiempo + WR + tiempo*WR

Si deseas la interacción de 3 vías, entonces también agregarías esto a todos los modelos descritos anteriormente.

Luego, el peso de importancia relativa de cada variable es la SUMA de TODOS los pesos AIC de los modelos que contienen esa variable. Debido a que los pesos AIC están estandarizados para sumar uno dentro de un conjunto de modelos candidatos, entonces el peso de importancia relativa para cada variable puede variar de 0 a 1.

No dividas el resultado por el número de modelos en los que se encuentra, es la suma total. Solo usaría estos para conjuntos de modelos candidatos equilibrados; no usaría el RIW para un número menor de modelos.

NOTA que si incluyes interacciones, entonces solo puedes comparar los RIWs de los efectos principales entre sí, y solo puedes comparar los RIWs de las interacciones entre sí. No puedes comparar los RIWs de efectos principales con los RIWs de interacciones (porque los efectos principales están presentes en más modelos que las interacciones).

Para tu información: una variable explicativa fuerte tendrá un RIW de alrededor de 0.9, efectos moderados de alrededor de 0.6-0.9, efectos muy débiles de alrededor de 0.5-0.6 y por debajo de eso, olvídalo. Para las interacciones, un efecto fuerte podría ser >0.7, moderado >0.5. Si no estás usando RIWs, simplemente mira tu tabla de modelos y observa si obtienes mejoras consistentes en AIC al agregar variables específicas, y en qué medida. Los efectos fuertes a menudo te darán mejoras en AIC de >5, moderados de 2-5 y débiles de 0-2. Si no obtienes ninguna mejora, entonces no está explicando nada.

si no tienes un conjunto de modelos candidatos equilibrado, pero SÍ tienes los pesos AIC (lo cual parece que tienes), entonces simplemente puedes usar las relaciones de estos para determinar la fuerza de soporte para un modelo sobre otro. Por ejemplo, si tienes el modelo 1 con un peso AIC de 0.7 y el modelo 2 con un peso AIC de 0.15; entonces el modelo 1 tiene 4.6 veces más apoyo de los datos que el modelo 2 (0.7/0.15). Puedes usar esto para evaluar la fuerza relativa de las variables a medida que entran y salen de los modelos. Pero NO NECESITAS hacer estos cálculos, y simplemente puedes remitir al lector a la tabla. Especialmente si tienes un modelo dominante; o una serie de modelos en la parte superior que contienen una variable en particular. Entonces simplemente es obvio para todos que es importante.

0voto

D. Spigle Puntos 21

Dos oraciones más abajo de la cita de la página 169, Brunham & Andersen (2002) explica por qué se necesita el balanceo.

Burnham and Anderson (2002), Página 169: Este balanceo pone a cada variable en pie de igualdad.

En otras palabras, si una variable está solo una vez en el conjunto de modelos pero otra variable está muchas veces en el conjunto de modelos, has desfavorecido a la variable que está subrepresentada.

Por ejemplo, digamos que tienes 5 modelos y la variable A solo estaba en un modelo y la variable B estaba en 4 modelos.

Model       AIC     w
A           12.0    0.579
B           14.5    0.166
B + C       15.0    0.129
B + C + D   16.0    0.078
B + D       17.0    0.048

Observa que el Modelo A es claramente el mejor modelo basado solo en el AIC, pero basado en la importancia relativa de la variable (RIV), la variable A tiene un RIV de 0.579 pero B tiene un RIV de 0.421. Esto sugiere a simple vista que las variables A y B tienen una importancia relativa similar pero la variable A fue desfavorecida porque solo fue incluida en un modelo.

Me he encontrado con otros casos donde los valores de RIV son ajustados por el número de modelos como lo hizo Kittle et al. (2008). Parece que MuMIn no ajusta el RIV por el número de modelos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X