11 votos

Transformar las variables continuas para la regresión logística

Tengo grandes datos de la encuesta, un resultado binario variable y muchas variables explicativas incluidas binario y continua. Estoy construyendo el modelo de conjuntos (a experimentar con ambos GLM y mixto GLM) y el uso de la información de los enfoques teóricos para seleccionar el modelo superior. He examinado cuidadosamente el las explicaciones (continuos y categóricos) para las correlaciones, y solo estoy a utilizar en el mismo modelo que han de Pearson o Phicorr coef menos de 0.3. Me gustaría dar todo de mi en variables continuas una oportunidad justa en la competencia por el modelo superior. En mi experiencia, la transformación de aquellos que lo necesitan basado en el sesgo mejora el modelo que participan en la inferior (AIC).

Mi primera pregunta es: ¿es esta mejoría debido a que la transformación de la mejora de la linealidad con el logit? O es la corrección de sesgo mejora el equilibrio de las variables explicativas, de alguna manera, haciendo que los datos más simétrica? Me gustaría entiende la matemática razones detrás de esto, pero por ahora, si alguien pudiera explicar esto en términos fáciles, eso sería genial. Si tienen alguna referencia de que podría utilizar, lo agradecería muchísimo.

Muchos sitios de internet dicen que debido a que la normalidad no es una hipótesis en la regresión logística binaria, no transformar las variables. Pero siento que por no transformar mis variables dejo algunas en situación de desventaja frente a los demás y puede afectar a lo que el modelo superior es y cambios de la inferencia (bueno, en general no, pero en algunos conjuntos de datos, lo hace). Algunos de mis variables se desempeñan mejor cuando el registro transformado, algunos cuando se eleva al cuadrado (dirección diferente de sesgo) y algunos no transformadas.

Podría alguien ser capaz de darme una pauta de lo que debe tener cuidado cuando la transformación de las variables explicativas de la regresión logística y si no lo hiciera, ¿por qué no?

3voto

kjetil b halvorsen Puntos 7012

Usted debe ser cuidadoso de decidir sobre la transformación o no de las variables sólo por motivos estadísticos. Usted debe mirar en la interpretación. ¿Es razonable que su respuesta es lineal en $x$? o es más probable lineal en $\log(x)$? Y para hablar de eso, necesitamos saber su varaibles... Solo como ejemplo: independiente del ajuste del modelo, yo no me creo la mortalidad a ser una función lineal de la edad!

Ya que dicen que tiene "grandes datos", se podía ver en splines, para dejar que los datos hablen acerca de las transformaciones ... por ejemplo, el paquete de mgcv en R. Pero incluso el uso de esta tecnología (o de otros methodsto búsqueda de transformaciones automáticamente), la prueba definitiva es preguntarse ¿qué hace sentido científico. ¿Qué hacen otras personas en su campo con datos similares?

3voto

John Puntos 21

La cuestión fundamental es ¿cuáles son los números que se supone que representan en el mundo real y lo que es la hipótesis de la relación entre esas variables y la variable dependiente. Usted puede mejorar su modelo de 'limpieza' en sus datos, pero si no reflejar mejor el mundo real que han tenido éxito. Tal vez las distribuciones de los datos significa que su enfoque de modelado es incorrecta y se necesita un enfoque diferente totalmente, tal vez sus datos a tener problemas.

¿Por qué usted eliminar variables si tienen corr>.3 es más allá de mí. Tal vez esas cosas realmente están relacionados y ambos son importantes para la variable dependiente. Usted puede lidiar con esto con un índice o una función que representa la contribución conjunta de correlación de las variables. Parece que están ciegas a tirar de información basado en un arbitrarios criterios estadísticos. ¿Por qué no utilizar corr>.31, o .33?

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X