8 votos

MCO frente a regresión logística para el análisis exploratorio con un resultado binario

En el modelo logístico idealizado, obtenemos una curva en forma de S que relaciona cada IV continua con la VD. Pero en la práctica esta forma de S ocurre con poca frecuencia, lo que hace que el enfoque logístico parezca un poco menos superior para este tipo de datos. Por supuesto, las probabilidades predichas de que cada observación sea "1" en la VD son utilizables en la regresión logística y no en la regresión MCO, ya que en esta última estas probabilidades pueden superar los límites de [0,1]. Pero, con fines exploratorios, y si no necesitamos las probabilidades predichas, ¿hasta qué punto es sensato utilizar MCO para ver qué IV tienen relaciones fuertes frente a moderadas frente a débiles con la VD? ¿No equivaldría esto a una especie de versión multivariante de la correlación punto-biserial? (Los coeficientes de regresión estandarizados, por no mencionar las estadísticas de colinealidad y los gráficos parciales, son todos, creo, más fáciles de obtener en OLS que en logístico).

7voto

mat_geek Puntos 1367

Si las variables explicativas tienen valores sobre toda la recta real no tiene mucho sentido expresar una expectativa que sea una proporción en $[0,1]$ como una función lineal de variable definida sobre toda la recta real. Si la forma sigmoidea de la transformación logit no describe la forma, entonces quizás sea mejor buscar una transformación diferente que mapee $[0,1]$ en $(- , )$ .

4 votos

+1. Para añadir a lo último que dijo Michael, probit y log-log complementario son otras dos funciones que mapean $(0,1)$ a $(-\infty, \infty)$ que se aplican en muchos paquetes de software.

3 votos

Obsérvese también que casi cualquier función que corresponda a una FCD para alguna variable aleatoria de valor real es una candidata. Logistic, Probit y C-log-log son tres de estas funciones (secante hiperbólica, variables aleatorias normales y de valor extremo). Así que también se podría utilizar "en principio" una función de enlace sesgo-normal, o doble exponencial, o t, etc. etc. La distribución T es útil cuando los grados de libertad se tratan como desconocidos, ya que se puede equilibrar aproximadamente entre la función de enlace probit y logit.

0 votos

@probabilityislogic, has hecho una puntualización importante pero puntillosa: Creo que la función logística es la FCD (inversa) de la distribución logística, no de la distribución hiperbólica secante.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X