24 votos

¿Cómo debo comprobar el supuesto de linealidad del logit para las variables independientes continuas en el análisis de regresión logística?

Estoy confundido con el supuesto de linealidad del logit para variables predictoras continuas en el análisis de regresión logística. ¿Necesitamos comprobar la relación lineal al buscar predictores potenciales mediante el análisis de regresión logística univariable?

En mi caso, estoy utilizando el análisis de regresión logística múltiple para identificar los factores asociados al estado nutricional (resultado dicotómico) entre los participantes. Las variables continuas incluyen la edad, la puntuación de comorbilidad de Charlson, la puntuación del índice de Barthel, la fuerza de prensión de la mano, la puntuación GDS, el IMC, etc. Mi primer paso es buscar variables significativas mediante regresión logística simple. ¿Debo comprobar el supuesto de linealidad durante los análisis de regresión logística simple para cada variable continua? ¿O debería comprobarlo en el modelo final de regresión logística múltiple?

Además, a mi entender, necesitamos transformar la variable continua no lineal antes de introducirla en el modelo. ¿Puedo categorizar la variable continua no lineal en lugar de transformarla?

15voto

Albert Puntos 31

La regresión logística NO asume una relación lineal entre las variables dependientes e independientes. Asume una relación lineal entre las probabilidades logarítmicas de la variable dependiente y las variables independientes (Esto es principalmente un problema con las variables independientes continuas.) Hay una prueba llamada Box-Tidwell que se puede utilizar para esto. El comando de stata es boxtid. No conozco el comando de SPSS, lo siento.

Esto puede ser de ayuda http://www.ats.ucla.edu/stat/stata/webbooks/logistic/chapter3/statalog3.htm

13voto

dan90266 Puntos 609

Como describo detalladamente en mi libro Estrategias de modelización de la regresión (2ª edición disponible 2015-09-04, e-book disponible ahora), el proceso de intentar transformar variables antes de modelar está plagado de problemas, siendo uno de los más importantes la distorsión del error tipo I y de los intervalos de confianza. La categorización causa problemas aún más graves, especialmente la falta de ajuste y la arbitrariedad.

En lugar de pensar en esto como un problema de "comprobación de falta de ajuste", es mejor pensar en ello como la especificación de un modelo que es muy probable que se ajuste. Una forma de hacerlo es asignar parámetros a las partes del modelo que probablemente sean fuertes y para las que no se sabe ya que la linealidad es un supuesto razonable. En este proceso se examina el tamaño efectivo de la muestra (en su caso, el mínimo del número de sucesos y del número de no sucesos) y se permite la complejidad en la medida en que lo permita el contenido informativo de los datos (utilizando, por ejemplo, la regla empírica de 15:1 sucesos:parámetros). Al especificar previamente un modelo paramétrico aditivo flexible, uno sólo se equivocará en lo importante al omitir interacciones importantes. En general, las interacciones deben especificarse previamente.

Puede comprobar si era necesaria la no linealidad en el modelo con una prueba formal (que se facilita con el programa R rms paquete), pero eliminar dichos términos cuando son insignificantes crea las distorsiones inferenciales que he descrito anteriormente.

Encontrará más información en las notas del curso enlazadas desde https://hbiostat.org/rms

3voto

SkyBeam Puntos 541

Creo que deberíamos trazar las variables continuas y comprobar su linealidad antes de utilizarlas en un modelo de regresión. Si la linealidad parece un supuesto razonable, creo que probablemente se mantendrá en el modelo de regresión multivariable final en la mayoría de los casos, y si no, creo que podría deberse principalmente a efectos de interacción que se pueden corregir.

Sí, categorizar variables continuas no lineales es una opción. Los problemas son que, en la mayoría de los casos, las categorías pueden parecer arbitrarias, y pequeñas diferencias en las puntuaciones de corte entre categorías pueden conducir a resultados diferentes (especialmente en lo que respecta a la significación estadística) y, dependiendo del número de categorías y del tamaño de sus datos, puede perder mucha información valiosa en los datos.

Un enfoque alternativo es utilizar un modelo aditivo generalizado, que es un modelo de regresión que se puede especificar como una regresión logística, pero en el que se pueden incluir variables independientes no lineales como "funciones suavizadoras". Técnicamente, esto no es muy complicado en R, pero no sé de otros paquetes de software. Estos modelos identificarán las relaciones no lineales con las variables dependientes, pero un inconveniente podría ser que no obtendrá números claros y ordenados en su salida para presentar, sino más bien una curva visual que se prueba para la significación estadística. Así que depende de lo interesado que esté en cuantificar el efecto de la variable no lineal sobre la variable de resultado.

Por último, puede utilizar modelos aditivos generalizados como los descritos anteriormente para probar los supuestos de linealidad en su modelo de regresión logística, al menos si utiliza R.

Echa un vistazo a este libro (un campo muy diferente al tuyo, y al mío, pero eso no importa en absoluto): http://www.amazon.com/Effects-Extensions-Ecology-Statistics-Biology/dp/0387874577/ref=sr_1_1?ie=UTF8&qid=1440928328&sr=8-1&keywords=zuur+ecología

2voto

Albert Puntos 31

Como no conozco sus datos, no sé si la combinación de esas tres variables (la variable básica, su logaritmo natural y un término interactivo) será un problema. Sin embargo, sé que en el pasado, cuando me he planteado combinar tres términos, suelo perder la noción conceptual de lo que estoy midiendo. Tienes que tener una buena idea de lo que estás midiendo o tendrás problemas para explicar tus conclusiones. Espero que le sirva de ayuda.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X