139 votos

¿Cuál es la diferencia entre la regresión lineal y la regresión logística?

¿Cuál es la diferencia entre la regresión lineal y la regresión logística?

¿Cuándo utilizaría cada uno de ellos?

31 votos

En el modelo de regresión lineal la variable dependiente $y$ se considera continua, mientras que en la regresión logística es categórica, es decir, discreta. En la aplicación, la primera se utiliza en entornos de regresión, mientras que la segunda se utiliza para la clasificación binaria o la clasificación multiclase (donde se denomina regresión logística multinomial).

0 votos

Aunque está escrito en un contexto diferente, puede ayudarte leer mi respuesta aquí: Diferencia entre los modelos logit y probit que contiene mucha información sobre lo que ocurre en la regresión logística y que puede ayudarle a entenderla mejor.

2 votos

Todas las respuestas anteriores son correctas, pero hay razones para favorecer un modelo de regresión lineal incluso cuando el resultado es una dicotomía. He escrito sobre estas razones aquí: statisticalhorizons.com/linear-vs-logistic

125voto

DocBuckets Puntos 750

La regresión lineal utiliza la ecuación lineal general $Y=b_0+(b_i X_i)+\epsilon$ donde $Y$ es una variable dependiente continua y las variables independientes $X_i$ son normalmente continua (pero también puede ser binaria, por ejemplo, cuando se utiliza el modelo lineal en una prueba t) u otros dominios discretos. $\epsilon$ es un término para la varianza que no es explicada por el modelo y suele llamarse simplemente "error". Los valores dependientes individuales denotados por $Y_j$ puede resolverse modificando un poco la ecuación: $Y_j=b_0 + \sum{(b_i X_{ij})+\epsilon_j}$

La regresión logística es otro procedimiento de modelo lineal generalizado (MLG) que utiliza la misma fórmula básica, pero en lugar del continuo $Y$ es una regresión para la probabilidad de un resultado categórico. En su forma más simple, esto significa que estamos considerando sólo una variable de resultado y dos estados de esa variable - ya sea 0 o 1.

La ecuación para la probabilidad de $Y=1$ se ve así: $$ P(Y=1) = {1 \over 1+e^{-(b_0+\sum{(b_iX_i)})}} $$

Sus variables independientes $X_i$ puede ser continua o binaria. Los coeficientes de regresión $b_i$ se puede exponer para obtener el cambio en las probabilidades de $Y$ por cambio de $X_i$ es decir, $Odds={P(Y=1) \over P(Y=0)}={P(Y=1) \over 1-P(Y=1)}$ y ${\Delta Odds}= e^{b_i}$ . $\Delta Odds$ se denomina odds ratio, $Odds(X_i+1)\over Odds(X_i)$ . En inglés, se puede decir que las probabilidades de $Y=1$ se multiplican por un factor de $e^{b_i}$ por unidad de cambio en $X_i$ .

Ejemplo: Si quisieras ver cómo el índice de masa corporal predice el colesterol en sangre (una medida continua), utilizarías la regresión lineal como se describe en la parte superior de mi respuesta. Si quieres ver cómo el IMC predice las probabilidades de ser diabético (un diagnóstico binario), utilizarías la regresión logística.

37voto

Rasmus Puntos 86

Regresión lineal se utiliza para establecer una relación entre las variables dependientes e independientes, que es útil para estimar la variable dependiente resultante en caso de que la variable independiente cambie. Por ejemplo:

Utilizando una regresión lineal, la relación entre la lluvia (R) y las ventas de paraguas (U) resulta ser - U = 2R + 5000

Esta ecuación dice que por cada 1 mm de lluvia hay una demanda de 5002 paraguas. Así que, utilizando la Regresión Simple, puedes estimar el valor de tu variable.

Regresión logística por otro lado, se utiliza para conocer la probabilidad de un evento. Y este evento se captura en formato binario, es decir, 0 o 1.

Ejemplo: quiero saber si un cliente va a comprar mi producto o no. Para ello, realizaría una Regresión Logística sobre los datos (relevantes) y mi variable dependiente sería una variable binaria (1=Sí; 0=No).

En términos de representación gráfica, la Regresión Lineal da como resultado una línea lineal, una vez que los valores se trazan en el gráfico. Mientras que la regresión logística da una línea en forma de S

Referencia de Mohit Khurana.

29voto

Las diferencias han sido resueltas por DocBuckets y Pardis, pero quiero añadir una forma de comparar su rendimiento no mencionada.

La regresión lineal suele resolverse minimizando el error de mínimos cuadrados del modelo respecto a los datos, por lo que los errores grandes se penalizan cuadráticamente. La regresión logística es justo lo contrario. El uso de la función de pérdida logística hace que los errores grandes se penalicen hasta una constante asintótica.

Considere la regresión lineal en un resultado categórico {0,1} para ver por qué esto es un problema. Si su modelo predice que el resultado es 38 cuando la verdad es 1, no ha perdido nada. La regresión lineal trataría de reducir ese 38, la logística no lo haría (tanto).

2voto

Ovidiu Pacuraru Puntos 11

Todas las respuestas anteriores son correctas, pero hay razones para favorecer un modelo de regresión lineal incluso cuando el resultado es una dicotomía. He escrito sobre estas razones aquí: http://statisticalhorizons.com/linear-vs-logistic

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X