9 votos

Puedo utilizar una variable que tiene una relación no lineal para la variable dependiente en la regresión logística?

Digamos que yo soy la construcción de un modelo de regresión logística donde la variable dependiente es binaria y puede tomar los valores de $0$ o $1$. Deje que las variables independientes se $x_1, x_2, ..., x_m$ - hay $m$ variables independientes. Digamos que para el $k$th variable independiente, el análisis bivariado muestra una forma de U de la tendencia - es decir, si el grupo I $x_k$ a $20$ papeleras de cada una contiene aproximadamente el mismo número de observaciones y calcular el "mal tipo" para cada bin - # de observaciones donde y = 0 / total de observaciones en cada bin - luego me sale una en forma de U de la curva.

Mis preguntas son:

  1. Puedo utilizar directamente $x_k$ como entrada, mientras que la estimación de la beta de parámetros? Son alguno de los supuestos estadísticos violado que podría causar un error significativo en la estimación de los parámetros?
  2. Es necesario 'alinear' esta variable a través de una transformación (registro, plaza, producto con el mismo, etc.)?

12voto

StasK Puntos 19497

Usted querrá usar un flexible de la formulación que la captura de la no-linealidad de forma automática, por ejemplo, una versión de un modelo aditivo generalizado. Un pobre hombre de elección es un polinomio $x_k$, $x_k^2$, ..., $x_k^{p_k}$, pero tales polinomios producen terribles overswings en los extremos de la gama de sus respectivas variables. Una mejor formulación sería utilizar (cúbico) B-splines (ver aleatorio introducción nota desde la primera página de Google aquí, y un buen libro, aquí). B-splines son una secuencia de local jorobas:

La altura de la joroba se determina a partir de su (lineal, logística, otros GLM) de regresión, como la función de ajuste es simplemente

$$ \theta = \beta_0 + \sum_{k=1}^K \beta_k B\Bigl( \frac{x-x_k}{h_k} \Bigr) $$

para la forma funcional de su joroba $B(\cdot)$. Por ahora la versión más popular es una forma de campana suave cubic spline:

$$ B(z) = \left\{ \begin{array}{ll} \frac14 (z+2)^3, & -2 \le z \le -1 \\ \frac14 (3|x|^3 - 6x^2 +4 ), & -1 < x < 1 \\ \frac14 (2-x)^3, & 1 \le x \le 2 \\ 0, & \mbox{otherwise} \end{array} \right. $$

En el lado de la implementación, todo lo que necesitas hacer es configurar 3-5-10-cualquiera que sea el número de nudos $x_k$ sería razonable para su aplicación y crear los correspondientes 3-5-10-independientemente de las variables en el conjunto de datos con los valores de $B\Bigl( \frac{x-x_k}{h_k} \Bigr) $. Normalmente, una simple cuadrícula de valores es elegido, con $h_k$ ser dos veces el tamaño de la malla de la red, por lo que en cada punto, hay superposición de dos B-splines, como en el anterior gráfico.

3voto

Maxi Puntos 156

Otra alternativa viable que el modelado de la tienda en la que trabajo habitualmente emplea, es el agrupamiento de las variables continuas independientes y sustituir el "mal tipo". Esto obliga a una relación lineal.

2voto

mat_geek Puntos 1367

Justo como la regresión lineal, regresión logística y de manera más general de modelos lineales generalizados están obligados a ser lineal en los parámetros, pero no necesariamente en las covariables. Así polinomio términos como una ecuación cuadrática que Macro sugiere que puede ser utilizado. Este es un malentendido común del término lineal en los modelos lineales generalizados. Modelos no lineales son modelos que no son lineales en los parámetros. Si el modelo es lineal en los parámetros y contiene aditivos ruido términos que son IID el modelo es lineal, incluso si no son las covariables como el X$^2$ log X o exp(X). Como puedo leer ahora la pregunta parece ser editado. Mi respuesta sería que sí a 1 y no es necesario 2.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X