9 votos

Elección de las transformaciones en la regresión logística

En la regresión lineal, las transformaciones de las variables explicativas se realizan para que tengan la máxima correlación con la variable dependiente.

¿Cuál es la mejor medida para elegir entre múltiples transformaciones en la regresión logística cuando la variable dependiente es binaria y no continua?

El objetivo final es maximizar la elevación (poder predictivo) del modelo.

14voto

dan90266 Puntos 609

El criterio de optimización utilizado por la regresión logística (y muchos otros métodos) es la función de verosimilitud. Se utiliza para estimar $\beta$ incluyendo múltiples $\beta$ representando una $X$ para conseguir ajustes cuadráticos, cúbicos y polinómicos a trozos (spline). También puede utilizarse para elegir entre las transformaciones de $X$ pero el acto de elegir no se reflejará en la matriz de información, por lo que la varianza resultante de $X\hat{\beta}$ será demasiado pequeño, haciendo que los intervalos de confianza no tengan la probabilidad de cobertura indicada. Si hace que la estimación de la transformación sea un objetivo explícito del ajuste del modelo (y los splines de regresión son excelentes formas de hacerlo) preservará todos los aspectos de la inferencia estadística. Dependiendo del tamaño de la muestra, un spline cúbico restringido (lineal en ambas colas) con 4 nudos, que requiere 3 parámetros, puede ser una buena elección.

7voto

Zizzencs Puntos 1358
  1. No, en los modelos lineales la transformación no se hace (o no debería hacerse) para tener la máxima correlación con la variable dependiente. Debe hacerse para a) Cumplir los supuestos del modelo sobre los residuos o b) Tener una variable explicativa más sensata; es decir, que tenga sentido, sustantivamente. Como señala @Andy, esto puede no ser suficiente. Pero, en ese caso, yo buscaría un método alternativo de regresión (véase más abajo) en lugar de tomar alguna transformación extraña. Por ejemplo, un modelo como $Y = b_0 + b_1x_1^{.21} + b_2x_2^{.73}$ va a ser un lío para explicar.

  2. En la regresión logística (al menos, en la logística dicotómica) hay menos supuestos (y ninguno sobre los residuos, que yo sepa), así que sólo se aplica b).

Incluso para los modelos lineales, me inclino por utilizar b). Y luego, si no se cumplen los supuestos, utilizar alguna otra forma de regresión (podría ser una regresión robusta, podría ser un modelo spline, podría ser polinomios).

3voto

aron Puntos 174

Con la modelización lineal generalizada, la medida matemática que se minimiza se llama "desviación" (-2*log-verosimilitud). Hay varios tipos de residuos que pueden desarrollarse. Los "residuos de desviación" son los términos individuales de una expresión modestamente compleja. Creo que son los más comprensibles cuando se aplican a variables categóricas. Para una variable categórica que utiliza la regresión logística, son simplemente las diferencias entre el log-odds(modelo) y el log-odds(datos), pero para las variables continuas son algo más complejas. Los residuos de desviación son los que se minimizan en el proceso iterativo. Véase esta descripción en el sitio web de la UCLA para ver unos bonitos gráficos de residuos de desviación.

Me parece que el análisis de la "elevación" se hace en la escala de probabilidades, en lugar de en la escala de logaritmos o probabilidades. Veo que Frank Harrell ha ofrecido algunos consejos y cualquier disputa que se perciba entre Frank y yo debería resolverse mediante la ponderación masiva de la opinión de Frank. (Mi consejo sería comprar el libro de Frank sobre RMS). Me sorprende que no haya ofrecido consejos para considerar métodos penalizados y que no haya emitido una advertencia contra el sobreajuste. Creo que elegir una transformación simplemente porque maximiza la "elevación" sería similar a elegir modelos que maximizan la "precisión". I conozca no respalda esa estrategia.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X