53 votos

Regresión logística: Transformación de variables

Al transformar las variables, ¿hay que utilizar todas las mismas transformaciones? Por ejemplo, ¿puedo elegir variables transformadas de forma diferente, como en:

Déjalo, $x_1,x_2,x_3$ ser la edad, la duración del empleo, la duración de la residencia y los ingresos.

Y = B1*sqrt(x1) + B2*-1/(x2) + B3*log(x3)

¿O debe ser coherente con sus transformaciones y utilizar todas las mismas? Como por ejemplo:

Y = B1*log(x1) + B2*log(x2) + B3*log(x3) 

Entiendo que el objetivo de la transformación es abordar el problema de la normalidad. Observando los histogramas de cada variable podemos ver que presentan distribuciones muy diferentes, lo que me llevaría a pensar que las transformaciones necesarias son diferentes variable a variable.

## R Code
df <- read.spss(file="http://www.bertelsen.ca/R/logistic-regression.sav", 
                use.value.labels=T, to.data.frame=T)
hist(df[1:7]) 

alt text

Por último, ¿qué validez tiene la transformación de variables mediante $\log(x_n + 1)$ donde $x_n$ tiene $0$ ¿valores? ¿Es necesario que esta transformación sea consistente en todas las variables o se utiliza adhoc incluso para aquellas variables que no incluyen $0$ 's?

## R Code 
plot(df[1:7])

alt text

75voto

jldugger Puntos 7490

Uno se transforma el dependiente de la variable para lograr aproximado de simetría y homoscedasticity de los residuos. Las transformaciones de la independiente de las variables tienen un propósito diferente: después de todo, en esta regresión todos los valores independientes se toman como fijos, no al azar, por lo que la "normalidad" es inaplicable. El principal objetivo de estas transformaciones es lograr lineal de las relaciones con la variable dependiente (o, realmente, con su logit). (Este objetivo está por encima auxiliares, tales como reducir el exceso de apalancamiento o el logro de una simple interpretación de los coeficientes.) Estas relaciones son una propiedad de los datos y los fenómenos que los producen, por lo que necesita la flexibilidad para elegir la re-expresiones de cada una de las variables por separado de los demás. Específicamente, no sólo no es un problema para el uso de un registro, una raíz, y de la reciprocidad, es bastante común. El principio es que no hay (por lo general) nada especial acerca de cómo los datos originalmente se expresan, así que usted debe dejar que los datos sugieren re-expresiones que conducen a la efectiva, precisa, útil y (si es posible) teóricamente justificada modelos.

Los histogramas-que reflejan las distribuciones univariantes--a menudo apuntan a una primera transformación, pero no son determinantes. Acompañar con matrices de diagramas de dispersión, de modo que usted puede examinar las relaciones entre todas las variables.


Transformaciones como $\log(x + c)$ donde $c$ es una constante positiva "valor inicial" puede trabajar, y que puede ser indicado incluso cuando no hay ningún valor de $x$ es cero ... pero a veces destruyen relaciones lineales. Cuando esto ocurre, una buena solución es crear dos variables. Uno de ellos es igual a $\log(x)$ cuando $x$ es distinto de cero y de lo contrario, es cualquier cosa; es conveniente dejarla por defecto a cero. El otro, al que llamaremos $z_x$, es un indicador de si $x$ es cero: es igual a 1 cuando $x = 0$ y es 0 en caso contrario. Estas condiciones contribuyen con una suma

$$\beta \log(x) + \beta_0 z_x$$

para la estimación. Cuando $x \gt 0$, $z_x = 0$ para el segundo término se retira dejando sólo $\beta \log(x)$. Cuando $x = 0$, "$\log(x)$" se ha establecido a cero, mientras que $z_x = 1$, dejando sólo el valor de $\beta_0$. Por lo tanto, $\beta_0$ estima que el efecto cuando $x = 0$ y $\beta$ es el coeficiente de $\log(x)$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X