Tengo grandes datos de la encuesta, un resultado binario variable y muchas variables explicativas incluidas binario y continua. Estoy construyendo el modelo de conjuntos (a experimentar con ambos GLM y mixto GLM) y el uso de la información de los enfoques teóricos para seleccionar el modelo superior. He examinado cuidadosamente el las explicaciones (continuos y categóricos) para las correlaciones, y solo estoy a utilizar en el mismo modelo que han de Pearson o Phicorr coef menos de 0.3. Me gustaría dar todo de mi en variables continuas una oportunidad justa en la competencia por el modelo superior. En mi experiencia, la transformación de aquellos que lo necesitan basado en el sesgo mejora el modelo que participan en la inferior (AIC).
Mi primera pregunta es: ¿es esta mejoría debido a que la transformación de la mejora de la linealidad con el logit? O es la corrección de sesgo mejora el equilibrio de las variables explicativas, de alguna manera, haciendo que los datos más simétrica? Me gustaría entiende la matemática razones detrás de esto, pero por ahora, si alguien pudiera explicar esto en términos fáciles, eso sería genial. Si tienen alguna referencia de que podría utilizar, lo agradecería muchísimo.
Muchos sitios de internet dicen que debido a que la normalidad no es una hipótesis en la regresión logística binaria, no transformar las variables. Pero siento que por no transformar mis variables dejo algunas en situación de desventaja frente a los demás y puede afectar a lo que el modelo superior es y cambios de la inferencia (bueno, en general no, pero en algunos conjuntos de datos, lo hace). Algunos de mis variables se desempeñan mejor cuando el registro transformado, algunos cuando se eleva al cuadrado (dirección diferente de sesgo) y algunos no transformadas.
Podría alguien ser capaz de darme una pauta de lo que debe tener cuidado cuando la transformación de las variables explicativas de la regresión logística y si no lo hiciera, ¿por qué no?