10 votos

Cómo implementar correctamente de forma iterativa reponderadas algoritmo de mínimos cuadrados para la regresión logística múltiple?

Estoy confundido acerca de la forma iterativa reponderadas menos plazas algoritmo utilizado para resolver para los coeficientes de regresión logística como se describe en la página 121 de Los Elementos de Aprendizaje Estadístico, 2ª Edición (Hastie, Tibshirani, Friedman, 2009).

El paso final del proceso, después de la colocación de una aproximación de Taylor de la log-verosimilitud de $N$ observaciones, es resolver los siguientes mínimos cuadrados ponderados problema:

$\beta^{new}\leftarrow argmin_{\beta}(\textbf{z}-\textbf{X}\beta)^T\textbf{W}(\textbf{z}-\textbf{X}\beta)$ $(1)$

encontrando $\frac{\delta[(\textbf{z}-\textbf{X}\beta)^T\textbf{W}(\textbf{z}-\textbf{X}\beta)]}{\delta\beta_j}$, establecimiento $\frac{\delta[(\textbf{z}-\textbf{X}\beta)^T\textbf{W}(\textbf{z}-\textbf{X}\beta)]}{\delta\beta_j}=0$, entonces la solución para $\beta_j^{new}$,

donde:

$\textbf{z}=\textbf{X}\beta^{old}+\textbf{W}^{-1}(\textbf{y}-\textbf{p})$,

$\textbf{W}=N\times{}N$ diagonal de la matriz de pesos con $i$th diagonal elemento $p(x_i;\beta^{old})(1-p(x_i;\beta^{old}))$,

$\textbf{p}=$vector de armarios probabilidades de con $i$elemento th $p(x_i;\beta^{old})$,

$\textbf{y}=$vector de $y_i$ de los valores,

$\textbf{X}=$matriz de $x_i$ de los valores,

$\beta=$vector de coeficientes de $\beta_0,\beta_1,...,\beta_p$.

En la parte derecha de la expresión (1), el $\beta$s falta alguno de superíndice. Es $\beta$ presume ser igual a $\beta^{old}$? Que es, a fin de resolver para $\beta_j^{new}$ (1) sustituimos en la actualización más reciente de $\beta$ para todos los valores de $\beta_{l\neq j}$ calculados en los pasos previos?

6voto

Paulius Puntos 369

En una expresión como

$$ \beta^{nuevo}\leftarrow argmin_{\beta}(\textbf{z}-\textbf{X}\beta)^T\textbf{W}(\textbf{z}-\textbf{X}\beta) $$

el punto es que la salida, $\beta^{new}$, es el resultado de considerar todas las posibles $\beta \in \mathbb{R}^p$ o a cualquier otro espacio que va a optimizar. Es por eso que no hay superíndice: en el problema de optimización $\beta$ es una variable ficticia, al igual que con una integral.

El procedimiento general consiste en conseguir un $\beta^{(t)}$, la informática, la "respuesta" para el PREMIO, y luego resolver el WLS problema para $\beta^{(t+1)}$; como ustedes saben, se puede utilizar derivados para conseguir una buena forma cerrada de solución para el óptimo $\beta$ para este problema. Por lo tanto $\beta^{old}$, la cual es fija, aparece en el vector $\textbf{z}$ en el WLS de cálculo y, a continuación, conduce a $\beta^{new}$. Esa es la "iteración", que hacemos uso de nuestra solución actual para crear una nueva respuesta vector; el WLS parte, a continuación, es la solución para que el nuevo $\beta$ vector. Podemos seguir haciendo esto hasta que no hay un "significativo" de cambio.

Recuerde que el WLS procedimiento no sabe que está siendo utilizado de forma iterativa; en la medida de que se trate, se presenta con un $X$, $y$, y $W$ y, a continuación, salidas

$$ \hat{\beta} = (X^T W X)^{-1} X^T W y $$ como se haría en cualquier otra instancia. Estamos siendo inteligente con nuestra selección de $y$ $W$ y la iteración.

Actualización: Podemos derivar la solución a la WLS problema sin utilizar cualquier componente sabio derivados. Tenga en cuenta que si $Y \sim N(X\beta, I)$$W^{1/2}Y \sim N(W^{1/2}X\beta, W)$, de la que tenemos que $$ \frac{d}{d\beta}||W^{1/2}Y - W^{1/2}X\beta||^2 = -2X^TWY + 2X^TWX\beta. $$

Configuración de la derivada es igual a 0 y resolviendo obtenemos

$$ \hat{\beta} = (X^TWX)^{-1} X^TWY. $$

Por lo tanto para cualquier entrada $W$, $X$, y $Y$ (siempre que W es positiva definida, etc), llegamos a nuestro óptimo $\hat{\beta}$. No importa lo que estas entradas. Así que lo que hacemos es utilizar nuestro $\beta^{old}$ a crear nuestra $Y$ vector y, a continuación, tapamos que en esta fórmula que genera el óptimo $\beta$ para las entradas. El punto entero de la WLS procedimiento es resolver para $\beta$. Esto en sí mismo no requiere la conexión de un $\beta$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X