20 votos

Construcción y selección de modelos mediante Hosmer et al. 2013. Regresión logística aplicada en R

Este es mi primer post en StackExchange, pero lo he estado usando como recurso durante bastante tiempo, haré todo lo posible para usar el formato apropiado y hacer las ediciones adecuadas. Además, esta es una pregunta de varias partes. No estaba seguro de si debía dividir la pregunta en varios posts diferentes o en uno solo. Dado que las preguntas son todas de una sección en el mismo texto pensé que sería más relevante publicar como una sola pregunta.

Estoy investigando el uso del hábitat de una especie de mamífero grande para una tesis de maestría. El objetivo de este proyecto es proporcionar a los gestores forestales (que probablemente no sean estadísticos) un marco práctico para evaluar la calidad del hábitat de las tierras que gestionan en relación con esta especie. Este animal es relativamente escurridizo, especialista en hábitats y suele encontrarse en zonas remotas. Se han llevado a cabo relativamente pocos estudios sobre la distribución de la especie, especialmente a nivel estacional. Se colocaron collares GPS a varios animales durante un año. Se seleccionaron al azar cien localizaciones (50 en verano y 50 en invierno) a partir de los datos del collar GPS de cada animal. Además, se generaron 50 puntos al azar dentro del área de distribución de cada animal para que sirvieran como localizaciones "disponibles" o "pseudoausentes". Las localizaciones de los collares GPS se codifican como 1 y las localizaciones disponibles seleccionadas al azar se codifican como 0.

Para cada lugar, se tomaron muestras de varias variables de hábitat en el campo (diámetros de los árboles, cobertura horizontal, restos leñosos gruesos, etc.) y varias se muestrearon a distancia a través del SIG (elevación, distancia a la carretera, rugosidad, etc.). Las variables son en su mayoría continuas, excepto una variable categórica que tiene 7 niveles.

Mi objetivo es utilizar modelos de regresión para construir funciones de selección de recursos (RSF) para modelar la probabilidad relativa de uso de las unidades de recursos. Me gustaría construir una RSF estacional (invierno y verano) para la población de animales (diseño tipo I) así como para cada animal individual (diseño tipo III).

Estoy utilizando R para realizar el análisis estadístico.

El texto primario He estado usando es

  • "Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. 2013. Applied Logistic Regression. Wiley, Chicester".

La mayoría de los ejemplos de Hosmer et al. utilizan STATA, También he estado utilizando los siguientes 2 textos de referencia con R .

  • " Crawley, M. J. 2005. Statistics : an introduction using R. J. Wiley, Chichester, West Sussex, Inglaterra".
  • " Plant, R. E. 2012. Análisis de datos espaciales en ecología y agricultura. Using R. CRC Press, London, GBR".

Actualmente estoy siguiendo los pasos en Capítulo 4 de Hosmer et al. para la "Selección intencionada de covariables" y tengo algunas preguntas sobre el proceso. En el texto que sigue a continuación he esbozado los primeros pasos para ayudar a mis preguntas.

  1. Paso 1: Un análisis univariable de cada variable independiente (he utilizado una regresión logística univariable). Cualquier variable cuya prueba univariable tiene un valor p inferior a 0,25 debe incluirse en el primer modelo multivariable.
  2. Paso 2: Ajustar un modelo multivariable que contenga todas las covariables identificadas para su inclusión en el paso 1 y evaluar la importancia de cada covariable utilizando el valor p de su estadística Wald. Las variables que no contribuyen a los niveles tradicionales de significación deben eliminarse y ajustarse un nuevo modelo. El nuevo modelo, más pequeño, debe ser compararse con el modelo antiguo, más amplio, mediante la prueba de la razón de verosimilitud parcial. de verosimilitud parcial.
  3. Paso 3: Comparar los valores de los coeficientes estimados en el modelo modelo más pequeño con sus respectivos valores del modelo grande. Cualquier variable cuyo coeficiente haya cambiado notablemente de magnitud debe añadirse de nuevo al modelo, ya que es importante en el sentido de de proporcionar un ajuste necesario del efecto de las variables que que permanecen en el modelo. Repita los pasos 2 y 3 hasta que parezca que todas las variables importantes están incluidas en el modelo y las excluidas no tienen importancia clínica y/o estadística. Hosmer et al. utilizan el método " delta-beta-hat-percent " como medida del cambio de magnitud de los coeficientes. En sugieren un cambio significativo como delta-beta-hat-percent de >20%. Hosmer et al. definen el delta-beta-hat-percent como $\Delta\hat{\beta}\%=100\frac{\hat{\theta}_{1}-\hat{\beta}_{1}}{\hat{\beta}_{1}}$ . Donde $\hat{\theta}_{1}$ es el coeficiente del modelo más pequeño y $\hat{\beta}_{1}$ es el coeficiente del modelo más amplio.
  4. Paso 4: Añadir cada variable no seleccionada en el paso 1 al modelo obtenido al final del paso 3, de una en una, y compruebe su su importancia mediante el valor p del estadístico Wald o la prueba de de verosimilitud parcial si se trata de una variable categórica con más de 2 niveles. Este paso es vital para identificar las variables que, por por sí mismas, no están relacionadas de forma significativa con el resultado, pero contribución importante en presencia de otras variables. Nos referimos al modelo al final del paso 4 como el efectos principales preliminares modelo .
  5. Pasos 5-7: No he progresado hasta este punto, así que dejaré estos pasos por ahora, o los guardaré para otra pregunta.

Mis preguntas:

  1. En el paso 2, lo que sería apropiado como nivel tradicional de significación, un valor p de <0,05 o algo más grande como <0,25?
  2. En el paso 2 de nuevo, quiero asegurarme de que el código R que he estado utilizando para la prueba de probabilidad parcial es correcto y quiero asegurarme de que estoy interpretando los resultados correctamente. Esto es lo que he estado haciendo anova(smallmodel,largemodel,test='Chisq') Si el valor p es significativo (<0,05) vuelvo a añadir la variable al modelo, si es insignificante procedo a la eliminación?
  3. En el paso 3, tengo una pregunta sobre el delta-beta-hat-percent y cuándo es conveniente volver a añadir una variable excluida al modelo. Por ejemplo, excluyo una variable del modelo y cambia el $\Delta\hat{\beta}\%$ para una variable diferente en >20%. Sin embargo, la variable con el cambio de >20% en $\Delta\hat{\beta}\%$ parece ser insignificante y parece que se excluirá del modelo en los próximos ciclos de los pasos 2 y 3. ¿Cómo puedo determinar si ambas variables deben incluirse o excluirse del modelo? Como estoy procediendo a excluir una variable a la vez, eliminando primero las variables menos significativas, tengo dudas sobre si excluir una variable fuera de orden.
  4. Por último, quiero asegurarme de que el código que estoy utilizando para calcular $\Delta\hat{\beta}\%$ es correcto. He utilizado el siguiente código. Si hay un paquete que haga esto por mí o una forma más sencilla de hacerlo estoy abierto a sugerencias.

    100*((smallmodel$coef[2]-largemodel$coef[2])/largemodel$coef[2])

0 votos

Por curiosidad, ¿cuál es la especie que está estudiando?

25voto

dan90266 Puntos 609

Ninguno de esos métodos propuestos ha demostrado que funcione mediante estudios de simulación. Dedique sus esfuerzos a formular un modelo completo y luego ajústelo. El cribado univariante es un enfoque terrible para la formulación del modelo, y los otros componentes de la selección de variables por pasos que usted espera utilizar también deberían evitarse. Esto se ha discutido ampliamente en este sitio. ¿Qué le hizo pensar, en primer lugar, que las variables deben eliminarse a veces de los modelos porque no son "significativas"? No utilice $P$ -valores o cambios en $\beta$ para guiar cualquier especificación del modelo.

1 votos

¿Podría ampliar esta información con métodos probados para la especificación de modelos?

0 votos

Utilizar el conocimiento del dominio.

4 votos

Sí, el conocimiento del dominio + una buena dosis de incredulidad en la simplicidad, por ejemplo, no asumir que las variables continuas actúan linealmente a menos que se tengan datos previos que demuestren la linealidad.

5voto

forecaster Puntos 3015

Deben evitarse a toda costa los métodos especificados para la selección de variables mediante estadísticos como P, regresión por pasos en el texto clásico de Hosmer et al.

Hace poco me topé con un artículo publicado en la revista internacional de previsión titulado " Ilusiones de previsibilidad "y un comentario sobre este artículo de Keith ord . Recomiendo encarecidamente estos dos artículos, ya que muestran claramente que el uso de la estadística de regresión suele ser engañoso. A continuación se muestra una captura de pantalla del artículo de Keith Ord que muestra mediante simulación por qué la regresión por pasos (utiliza la estadística p) para la selección de variables es mala.

enter image description here

Otro maravilloso artículo de Scott Armstrong que apareció en el mismo número de la revista muestra por qué hay que ser muy cauteloso a la hora de utilizar el análisis de regresión en datos no experimentales con estudios de casos. Desde que leí estos artículos, evito utilizar el análisis de regresión para hacer inferencias causales sobre datos no experimentales. Como profesional, ojalá hubiera leído artículos como éste muchos años, que me habrían evitado tomar malas decisiones y evitar costosos errores.

En cuanto a su problema específico, no creo que los experimentos aleatorios sean posibles en su caso, por lo que le recomendaría que utilizara validación cruzada para seleccionar variables. Un ejemplo bien elaborado está disponible en este libro online gratuito sobre cómo utilizaría la precisión predictiva para seleccionar las variables. También hay muchos otros métodos de selección de variables, pero yo me limitaría a la validación cruzada.

Personalmente, me gusta la cita de Armstrong "En algún lugar me encontré con la idea de que la estadística debía ayudar a la comunicación. Los complejos métodos de regresión y el rebaño de estadísticas de diagnóstico nos han llevado en la otra dirección"

Lo que sigue es mi propia opinión. No soy estadístico.

  • Como biólogo, creo que apreciará este punto. La naturaleza es muy compleja, suponiendo que La función logística y la ausencia de interacción entre las variables no se da en la naturaleza. Además, la regresión logística tiene lo siguiente suposiciones :

  • Las verdaderas probabilidades condicionales son una función logística de la variables independientes.

  • No se omite ninguna variable importante. No se incluyen variables extrañas.

  • Las variables independientes se miden sin error.

  • Las observaciones son independientes.

  • Las variables independientes no son combinaciones lineales entre sí.

Yo recomendaría el árbol de clasificación y regresión (CART(r)) como alternativa a la regresión logística para este tipo de análisis, ya que está libre de suposiciones:

  1. No paramétrico/Dirigido por los datos/Sin asumir que sus probabilidades de salida siguen una función logística.
  2. No lineal
  3. permite la interacción de variables complejas.
  4. Proporciona árboles visuales altamente interpretables que un no estadístico como los gestores forestales apreciaría.
  5. Maneja fácilmente los valores perdidos.
  6. ¡¡No hace falta ser un estadístico para usar CART!!
  7. selecciona automáticamente las variables mediante validación cruzada.

CART es una marca comercial de Salford Systems. Ver esto video para la introducción y la historia del CART. También hay otros videos como cart - logistic regrssion hybrids en el mismo sitio web. Yo lo comprobaría. Una implementación de código abierto en R se llama Árbol y hay muchos otros paquetes como rattle disponibles en R. Si encuentro tiempo, publicaré el primer ejemplo en el texto de Homser utilizando CART. Si insiste en utilizar la regresión logística, entonces yo al menos utilizaría métodos como CART para seleccionar las variables y luego aplicar la regresión logística.

Personalmente, prefiero CART a la regresión logística por las ventajas mencionadas anteriormente. Pero aún así, yo probaría tanto la regresión logística como CART o el híbrido CART-Regresión Logística, y vería cuál da mejor precisión de la predicción y también, lo que es más importante, mejor interpretabilidad y elija el que considere que "comunica" los datos con mayor claridad.

Además, para su información, CART fue rechazado por las principales revistas de estadística y finalmente los inventores de CART publicaron una monografía. CART allanó el camino a algoritmos de aprendizaje automático modernos y de gran éxito, como Random Forest(r), Gradient Boosting Machines (GBM), Multivariate Adaptive Regression Splines. Randomforest y GBM son más precisos que CART, pero menos interpretables (tipo caja negra) que CART.

Espero que esto sea útil. Hágame saber si encuentra este post útil ?

10 votos

No. El modelo logístico no hace más suposiciones que otros modelos. Su principal suposición es que $Y$ es realmente todo o nada. CART es enormemente superado por la regresión logística. CART se ajusta eficazmente a lejos más parámetros que la regresión logística porque permite todas las interacciones posibles. La ironía es que un método que permite la máxima flexibilidad es más conservador que un método más estructurado. Para que los modelos CART estén bien calibrados, hay que podar el modelo para que tenga una pequeña discriminación predictiva.

3 votos

Esta respuesta pasa de los comentarios generales, muchos de los cuales me parecen incontrovertibles, a un apoyo muy específico y bastante personal al CART como método de elección. Tienes derecho a opinar, como otros tendrán derecho a objetar. Mi sugerencia es que señale el doble sabor de su respuesta con bastante más claridad.

3 votos

La regresión logística es un modelo lineal generalizado, pero por lo demás es defendible como un modelo naturalmente no lineal (en el sentido de que se ajusta a curvas o equivalentes, no a líneas o equivalentes, en el espacio habitual) que se adapta bien a las respuestas binarias. La apelación a la biología en este caso es de doble filo; ¡históricamente los modelos logísticos para respuestas binarias se inspiraron en modelos de crecimiento logístico (por ejemplo, de poblaciones) en biología!

3voto

hagc Puntos 48

Creo que estás tratando de predecir la presencia de la especie con un enfoque de presencia/fondo, que está bien documentado en revistas como Methods in Ecology and Evolution, Ecography, etc. Quizás el paquete R dismo sea útil para tu problema. Incluye una bonita viñeta. El uso de dismo u otro paquete similar implica cambiar tu enfoque del problema, pero creo que vale la pena echarle un vistazo.

0 votos

He investigado el "dismo" y es una lectura muy interesante. El artículo de 2008 de Elith et al. en el Journal of Animal Ecology también fue muy útil. Los datos de ejemplo y el recorrido son muy útiles. Tengo curiosidad por saber si los árboles de regresión potenciados son lo que debería usar o si hay un método más apropiado.

0 votos

No existe un método específico que pueda considerarse el mejor. Supongo que los árboles de regresión potenciados son buenos, pero hay otras opciones, por ejemplo glm y Maxent. Este último es muy popular. Si quieres familiarizarte con el campo de la modelización de la distribución de las especies, me temo que hay mucho que leer y quizá esté lejos de tus necesidades. Pero ahora que conoces dismo y trabajos como el de Elith, estás en condiciones de hacer tu propio juicio y buscar la información que necesitas.

0 votos

El GLM es el método que he estado utilizando; mi pregunta se refería a la selección del modelo utilizando el GLM. Me gustaría seguir utilizando el GLM si pudiera encontrar una forma adecuada de formular los modelos. Maxent sólo es apropiado para datos de presencia, si estuviera realizando un análisis de los datos del collar GPS con sólo variables derivadas a distancia probablemente lo utilizaría. Sin embargo, mientras realizaba el muestreo en el campo también muestreé puntos de pseudoausencia. He preguntado por los árboles de regresión potenciados porque parece que es específicamente para lo que sirve el paquete dismo.

-1voto

forecaster Puntos 3015

Amplío mi respuesta anterior. Esto es sólo un ejemplo para mostrar alguna ventaja de CART. A continuación se muestra el árbol CART para el Estudio de Colocación de Adolescentes en el libro de texto de Hosmer et al. Como puede ver, CART captura interacciones complejas y también le proporciona gráficos muy visuales que ayudan a comunicar mejor sus datos. También se muestra la precisión predictiva (basada en una validación cruzada de 10 veces), y la importancia de las variables (esto podría utilizarse para la selección de variables). Por favor, eche un vistazo a la interacción con variables como BEHAVIOR x DAN X AGE X ELOPE X PLACE, que la regresión logística no podría capturar. Espero que esto le motive a buscar enfoques basados en árboles/datos además de la regresión logística.

enter image description here enter image description here enter image description here

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X