Este es mi primer post en StackExchange, pero lo he estado usando como recurso durante bastante tiempo, haré todo lo posible para usar el formato apropiado y hacer las ediciones adecuadas. Además, esta es una pregunta de varias partes. No estaba seguro de si debía dividir la pregunta en varios posts diferentes o en uno solo. Dado que las preguntas son todas de una sección en el mismo texto pensé que sería más relevante publicar como una sola pregunta.
Estoy investigando el uso del hábitat de una especie de mamífero grande para una tesis de maestría. El objetivo de este proyecto es proporcionar a los gestores forestales (que probablemente no sean estadísticos) un marco práctico para evaluar la calidad del hábitat de las tierras que gestionan en relación con esta especie. Este animal es relativamente escurridizo, especialista en hábitats y suele encontrarse en zonas remotas. Se han llevado a cabo relativamente pocos estudios sobre la distribución de la especie, especialmente a nivel estacional. Se colocaron collares GPS a varios animales durante un año. Se seleccionaron al azar cien localizaciones (50 en verano y 50 en invierno) a partir de los datos del collar GPS de cada animal. Además, se generaron 50 puntos al azar dentro del área de distribución de cada animal para que sirvieran como localizaciones "disponibles" o "pseudoausentes". Las localizaciones de los collares GPS se codifican como 1 y las localizaciones disponibles seleccionadas al azar se codifican como 0.
Para cada lugar, se tomaron muestras de varias variables de hábitat en el campo (diámetros de los árboles, cobertura horizontal, restos leñosos gruesos, etc.) y varias se muestrearon a distancia a través del SIG (elevación, distancia a la carretera, rugosidad, etc.). Las variables son en su mayoría continuas, excepto una variable categórica que tiene 7 niveles.
Mi objetivo es utilizar modelos de regresión para construir funciones de selección de recursos (RSF) para modelar la probabilidad relativa de uso de las unidades de recursos. Me gustaría construir una RSF estacional (invierno y verano) para la población de animales (diseño tipo I) así como para cada animal individual (diseño tipo III).
Estoy utilizando R para realizar el análisis estadístico.
El texto primario He estado usando es
- "Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. 2013. Applied Logistic Regression. Wiley, Chicester".
La mayoría de los ejemplos de Hosmer et al. utilizan STATA, También he estado utilizando los siguientes 2 textos de referencia con R .
- " Crawley, M. J. 2005. Statistics : an introduction using R. J. Wiley, Chichester, West Sussex, Inglaterra".
- " Plant, R. E. 2012. Análisis de datos espaciales en ecología y agricultura. Using R. CRC Press, London, GBR".
Actualmente estoy siguiendo los pasos en Capítulo 4 de Hosmer et al. para la "Selección intencionada de covariables" y tengo algunas preguntas sobre el proceso. En el texto que sigue a continuación he esbozado los primeros pasos para ayudar a mis preguntas.
- Paso 1: Un análisis univariable de cada variable independiente (he utilizado una regresión logística univariable). Cualquier variable cuya prueba univariable tiene un valor p inferior a 0,25 debe incluirse en el primer modelo multivariable.
- Paso 2: Ajustar un modelo multivariable que contenga todas las covariables identificadas para su inclusión en el paso 1 y evaluar la importancia de cada covariable utilizando el valor p de su estadística Wald. Las variables que no contribuyen a los niveles tradicionales de significación deben eliminarse y ajustarse un nuevo modelo. El nuevo modelo, más pequeño, debe ser compararse con el modelo antiguo, más amplio, mediante la prueba de la razón de verosimilitud parcial. de verosimilitud parcial.
- Paso 3: Comparar los valores de los coeficientes estimados en el modelo modelo más pequeño con sus respectivos valores del modelo grande. Cualquier variable cuyo coeficiente haya cambiado notablemente de magnitud debe añadirse de nuevo al modelo, ya que es importante en el sentido de de proporcionar un ajuste necesario del efecto de las variables que que permanecen en el modelo. Repita los pasos 2 y 3 hasta que parezca que todas las variables importantes están incluidas en el modelo y las excluidas no tienen importancia clínica y/o estadística. Hosmer et al. utilizan el método " delta-beta-hat-percent " como medida del cambio de magnitud de los coeficientes. En sugieren un cambio significativo como delta-beta-hat-percent de >20%. Hosmer et al. definen el delta-beta-hat-percent como $\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}$ . Donde $\hat{\theta}_{1}$ es el coeficiente del modelo más pequeño y $\hat{\beta}_{1}$ es el coeficiente del modelo más amplio.
- Paso 4: Añadir cada variable no seleccionada en el paso 1 al modelo obtenido al final del paso 3, de una en una, y compruebe su su importancia mediante el valor p del estadístico Wald o la prueba de de verosimilitud parcial si se trata de una variable categórica con más de 2 niveles. Este paso es vital para identificar las variables que, por por sí mismas, no están relacionadas de forma significativa con el resultado, pero contribución importante en presencia de otras variables. Nos referimos al modelo al final del paso 4 como el efectos principales preliminares modelo .
- Pasos 5-7: No he progresado hasta este punto, así que dejaré estos pasos por ahora, o los guardaré para otra pregunta.
Mis preguntas:
- En el paso 2, lo que sería apropiado como nivel tradicional de significación, un valor p de <0,05 o algo más grande como <0,25?
- En el paso 2 de nuevo, quiero asegurarme de que el código R que he estado utilizando para la prueba de probabilidad parcial es correcto y quiero asegurarme de que estoy interpretando los resultados correctamente. Esto es lo que he estado haciendo
anova(smallmodel,largemodel,test='Chisq')
Si el valor p es significativo (<0,05) vuelvo a añadir la variable al modelo, si es insignificante procedo a la eliminación? - En el paso 3, tengo una pregunta sobre el delta-beta-hat-percent y cuándo es conveniente volver a añadir una variable excluida al modelo. Por ejemplo, excluyo una variable del modelo y cambia el $\Delta\hat{\beta}\%$ para una variable diferente en >20%. Sin embargo, la variable con el cambio de >20% en $\Delta\hat{\beta}\%$ parece ser insignificante y parece que se excluirá del modelo en los próximos ciclos de los pasos 2 y 3. ¿Cómo puedo determinar si ambas variables deben incluirse o excluirse del modelo? Como estoy procediendo a excluir una variable a la vez, eliminando primero las variables menos significativas, tengo dudas sobre si excluir una variable fuera de orden.
-
Por último, quiero asegurarme de que el código que estoy utilizando para calcular $\Delta\hat{\beta}\%$ es correcto. He utilizado el siguiente código. Si hay un paquete que haga esto por mí o una forma más sencilla de hacerlo estoy abierto a sugerencias.
100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])
0 votos
Por curiosidad, ¿cuál es la especie que está estudiando?