10 votos

Invarianza de los resultados al escalar variables explicativas en regresión logística, ¿hay alguna prueba?

Hay un resultado estándar de la regresión lineal que los coeficientes de regresión son dadas por

$$\mathbf{\beta}=(\mathbf{X^T X})^{-1}\mathbf{X^T y}$$

or

$(\mathbf{X^T X})\mathbf{\beta}=\mathbf{X^T y} \etiqueta{2}\label{eq2}$

El escalado de las variables explicativas no afecta a las predicciones. He tratado de mostrar en este algebraicamente de la siguiente manera.

La respuesta está relacionada con las variables explicativas a través de la ecuación de matriz $\mathbf{y}=\mathbf{X \beta} \tag{3}\label{eq3}$

$\mathbf{X}$ es $n \times (p+1)$ matriz de n observaciones de p variables explicativas. La primera columna de $\mathbf{X}$ es una columna de unos.

El escalado de las variables explicativas, con un $(p+1) \times (p+1) $ matriz diagonal $\mathbf{D}$, cuyas entradas son los factores de escala $ \mathbf{X^s} = \mathbf{XD} \tag{4}\label{eq4}$

$\mathbf{X^s}$ and $\mathbf{\beta^s}$ satisfy $\eqref{eq2}$:

$$(\mathbf{D^TX^T XD})\mathbf{\beta^s} =\mathbf{D^TX^T y}$$

so

$$\mathbf{X^T XD}\mathbf{\beta^s} =\mathbf{X^T y}$$

$$\Rightarrow \mathbf{D \beta^s} = (\mathbf{X^T X)^{-1}}\mathbf{X^T y}=\mathbf{\beta}$$

$\Rightarrow \mathbf{\beta^s}=\mathbf{D}^{-1}\mathbf{\beta} \etiqueta{5}\label{eq5}$

This means if an explanatory variable is scaled by $d_i$ then the regression coefficient $\beta_i$is scaled by $1/d_i$ y el efecto de la escala anula, es decir, teniendo en cuenta las predicciones basadas en la escala de valores, y el uso de $\eqref{eq4},\eqref{eq5},\eqref{eq3}$

$$\mathbf{y^s}=\mathbf{X^s \beta^s} = \mathbf{X D D^{-1}\beta}=\mathbf{X \beta}=\mathbf{y}$$ como era de esperar.

Ahora a la pregunta.

Para la regresión logística sin ningún tipo de regularización, se sugiere, haciendo regresiones con y sin escala el mismo efecto se ve


fit <- glm(vs ~ mpg, data=mtcars,family=binomial)

print(fit)

Coefficients:
(Intercept)          mpg  
    -8.8331       0.4304  
mtcars

Cuando la variable mpg es la escala de 10, el coeficiente correspondiente es reducido por 10.

  1. Cómo podría esta propiedad de escala estar demostrar (o refutar ) algebraicamente para la regresión logística?

He encontrado una pregunta similar, relativas al efecto de las AUC cuando la regularización se utiliza.

  1. Es allí cualquier punto de escalado de las variables explicativas en la regresión logística, en la ausencia de regularización?

Gracias.

12voto

Christoph Hanck Puntos 4143

Aquí hay una idea heurística:

La probabilidad de un modelo de regresión logística es $$ \ ell (\ beta | y) \ propto \ prod_i \ left (\ frac {\ exp (x_i '\ beta)} {1+ \ exp (x_i' \ beta)} \ derecha) ^ {y_i} \ left (\ frac {1} {1+ \ exp (x_i '\ beta)} \ right) ^ {1-y_i} $$ y el MLE es el argumento máximo de esa probabilidad. Cuando escala un regresor, también necesita escalar los coeficientes para alcanzar la máxima probabilidad original.

8voto

user551504 Puntos 61

Christoph tiene una gran respuesta (+1). Este escrito sólo porque no puedo comentar allí.

El punto crucial aquí es que la probabilidad de que sólo depende de los coeficientes de $\beta$ a través del término lineal $X \beta$. Esto hace que la probabilidad incapaz de distinguir entre "$X \beta$" e $(XD) (D^{-1}\beta)$", causando la invariancia te has dado cuenta.

Para ser específico acerca de esto, tenemos que introducir una notación (lo que podemos hacer ya que estamos escribiendo una respuesta!). Deje $y_i | x_i \stackrel{ind.}{\sim} \mathrm{bernoulli}\left[ \mathrm{logit}^{-1} (x_i^T \beta) \right]$ ser independiente dibuja siguiendo el modelo de regresión logística, donde la $x_i \in \mathbb{R}^{p+1}$ es la medida de las covariables. Escribir la probabilidad de que la $i^{th}$ observación como $l(y_i, x_i^T \beta)$.

Para introducir el cambio de coordenadas, escribir $\bar{x}_i = D x_i$, donde $D$ es la diagonal de la matriz con todas las entradas de la diagonal distinto de cero. Por definición de estimación de máxima verosimilitud, sabemos que los estimadores de máxima verosimilitud $\hat{\beta}$ de los datos de $\{y_i | x_i\}$ que se cumpla que $$\sum_{i=1}^n l(y_i, x_i^T \beta) \leq \sum_{i=1}^n l(y_i, x_i^T \hat\beta) \tag{1}$$ for all coefficients $\beta \in \mathbb{R}^p$, and that maximum likelihood estimators for the data $\{y_i | \bar{x}_i\}$ satisfy that $$\sum_{i=1}^n l(y_i, \bar{x}_i^T \alpha) \leq \sum_{i=1}^n l(y_i, \bar{x}_i^T \hat\alpha) \tag{2}$$ for all coefficients $\alpha \in \mathbb{R}^p$.

En su argumento, se utiliza una forma cerrada de la estimador de máxima verosimilitud para obtener el resultado. Resulta, sin embargo, (como Cristoph se sugirió anteriormente), todo lo que necesita hacer es trabajar con la probabilidad. Deje $\hat{\beta}$ ser un estimador de máxima verosimilitud de los datos de $\{y_i | x_i\}$. Ahora, la escritura $\beta = D \alpha$, podemos usar la ecuación (1) para mostrar que $$\sum_{i=1}^n l(y_i, \bar{x}_i^T \alpha) = \sum_{i=1}^n l\left(y_i, (x_i^T D) (D^{-1} \beta)\right) \leq \sum_{i=1}^n l(y_i, x_i^T \hat\beta) = \sum_{i=1}^n l(y_i, \bar{x}_i^T D^{-1} \hat{\beta}).$$ That is, $D^{-1} \hat{\beta}$ satisfies equation (2) and is therefore a maximum likelihood estimator with respect to the data $\{y_i | \bar{x}_i\}$. Esta es la invariancia de la propiedad notado.

(Para lo que vale, hay un montón de espacio para la generalización de este argumento, más allá de regresión logística: ¿necesitamos observaciones independientes? ¿necesitamos la matriz $D$ a ser diagonal? ¿necesitamos una respuesta binaria? ¿necesitamos el uso logit? Lo notación cambiaría para este argumento para trabajar en diferentes escenarios?)

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X