19 votos

Notación matricial para la regresión logística

En la regresión lineal (pérdida al cuadrado), utilizando la matriz tenemos una notación muy concisa para el objetivo

$$\text{minimize}~~ \|Ax-b\|^2$$

Dónde $A$ es la matriz de datos, $x$ son los coeficientes, y $b$ es la respuesta.

¿Existe una notación matricial similar para el objetivo de regresión logística? Todas las notaciones que he visto no pueden deshacerse de la suma sobre todos los puntos de datos (algo así como $\sum_{\text data} \text{L}_\text{logistic}(y,\beta^Tx)$ ).


EDIT: gracias por la gran respuesta de joceratops y AdamO. Su respuesta me ayudó a darme cuenta de que otra razón por la que la regresión lineal tiene una notación más concisa es porque la definición de la norma, que encapsula el cuadrado y la suma o $e^\top e$ . Pero en la pérdida logística, no existe tal definición, lo que hace que la notación sea un poco más complicada.

20voto

frans Puntos 108

En la regresión lineal, la solución de Estimación de Máxima Verosimilitud (MLE) para estimar $x$ tiene la siguiente solución de forma cerrada (suponiendo que A es una matriz con rango completo de columnas):

$$\hat{x}_\text{lin}=\underset{x}{\text{argmin}} \|Ax-b\|_2^2 = (A^TA)^{-1}A^Tb$$

Esto se lee como "encontrar el $x$ que minimice la función objetivo, $\|Ax-b\|_2^2$ ". Lo bueno de representar la función objetivo de regresión lineal de esta manera es que podemos mantener todo en notación matricial y resolver para $\hat{x}_\text{lin}$ a mano. Como menciona Alex R., en la práctica a menudo no consideramos $(A^TA)^{-1}$ directamente porque es computacionalmente ineficiente y $A$ a menudo no cumple los criterios de rango completo. En su lugar, recurrimos a la Pseudoinverso de Moore-Penrose . Los detalles de la resolución computacional del pseudoinverso pueden implicar la descomposición de Cholesky o la descomposición del valor singular.

Alternativamente, la solución MLE para estimar los coeficientes en la regresión logística es:

$$\hat{x}_\text{log} = \underset{x}{\text{argmin}} \sum_{i=1}^{N} y^{(i)}\log(1+e^{-x^Ta^{(i)}}) + (1-y^{(i)})\log(1+e^{x^T a^{(i)}})$$

donde (suponiendo que cada muestra de datos se almacena por filas):

$x$ es un vector que representa los coeficientes de regresión

$a^{(i)}$ es un vector que representa el $i^{th}$ muestra/ fila en la matriz de datos $A$

$y^{(i)}$ es un escalar en $\{0, 1\}$ y el $i^{th}$ correspondiente a la etiqueta $i^{th}$ muestra

$N$ es el número de muestras de datos / número de filas de la matriz de datos $A$ .

De nuevo, esto se lee como "encontrar el $x$ que minimice la función objetivo".

Si se quiere, se puede dar un paso más y representar $\hat{x}_\text{log}$ en notación matricial como sigue:

$$ \hat{x}_\text{log} = \underset{x}{\text{argmin}} \begin{bmatrix} 1 & (1-y^{(1)}) \\ \vdots & \vdots \\ 1 & (1-y^{(N)})\\\end{bmatrix} \begin{bmatrix} \log(1+e^{-x^Ta^{(1)}}) & ... & \log(1+e^{-x^Ta^{(N)}}) \\\log(1+e^{x^Ta^{(1)}}) & ... & \log(1+e^{x^Ta^{(N)}}) \end{bmatrix} $$

pero no se gana nada haciendo esto. La regresión logística no tiene una solución de forma cerrada y no obtiene los mismos beneficios que la regresión lineal al representarla en notación matricial. Para resolver $\hat{x}_\text{log}$ Se utilizan técnicas de estimación como el descenso de gradiente y el método Newton-Raphson. Mediante el uso de algunas de estas técnicas (por ejemplo, Newton-Raphson), $\hat{x}_\text{log}$ se aproxima y se representa en notación matricial ( ver enlace proporcionado por Alex R. ).

0 votos

Genial. Gracias. Creo que la razón por la que no tenemos algo como resolver $A^\top A x=A^\top b$ es la razón por la que no damos ese paso más para hacer la notación matricial y evitar el símbolo de la suma.

0 votos

Tenemos alguna ventaja de dar un paso más, convertirlo en una multiplicación matricial haría el código más sencillo, y en muchas plataformas como matlab, el bucle for con suma sobre todos los datos, es mucho más lento que las operaciones matriciales.

5 votos

@hxd1011: Sólo un pequeño comentario: reducir a ecuaciones matriciales no siempre es acertado. En el caso de $A^TAx=A^Tb$ no deberías intentar buscar la inversa de la matriz $A^TA$ sino que se hace algo como una descomposición de Cholesky, que será mucho más rápida y estable numéricamente. Para la regresión logística, hay un montón de diferentes esquemas de iteración que, de hecho, utilizan cálculos matriciales. Para una gran revisión ver aquí: research.microsoft.com/es-us/um/people/minka/papers/logreg/

18voto

alexs77 Puntos 36

La respuesta de @joceratops se centra en el problema de optimización de máxima verosimilitud para la estimación. En efecto, se trata de un enfoque flexible que se adapta a muchos tipos de problemas. Para estimar la mayoría de los modelos, incluidos los modelos de regresión lineal y logística, existe otro enfoque general que se basa en el método de estimación de momentos.

El estimador de regresión lineal puede también se puede formular como la raíz de la ecuación de estimación:

$$0 = \mathbf{X}^T(Y - \mathbf{X}\beta)$$

A este respecto $\beta$ se ve como el valor que recupera un residuo medio de 0. No necesita depender de ningún modelo de probabilidad subyacente para tener esta interpretación. Sin embargo, es interesante ir derivando las ecuaciones de puntuación para una probabilidad normal, verá de hecho que toman exactamente la forma mostrada arriba. La maximización de la probabilidad de la familia exponencial normal para un modelo lineal (por ejemplo, regresión lineal o logística) es equivalente a la obtención de soluciones a sus ecuaciones de puntuación.

$$0 = \sum_{i=1}^n S_i(\alpha, \beta) = \frac{\partial}{\partial \beta} \log \mathcal{L}( \beta, \alpha, X, Y) = \mathbf{X}^T (Y - g(\mathbf{X}\beta))$$

Dónde $Y_i$ tiene un valor esperado $g(\mathbf{X}_i \beta)$ . En la estimación GLM, $g$ se dice que es la inversa de una función de enlace. En las ecuaciones de probabilidad normales, $g^{-1}$ es la función de identidad, y en la regresión logística $g^{-1}$ es la función logit. Un enfoque más general sería exigir $0 = \sum_{i=1}^n Y - g(\mathbf{X}_i\beta)$ que permite una mala especificación del modelo.

Además, es interesante observar que para las familias exponenciales regulares, $\frac{\partial g(\mathbf{X}\beta)}{\partial \beta} = \mathbf{V}(g(\mathbf{X}\beta))$ que se denomina relación media-varianza. En efecto, para la regresión logística, la relación media-varianza es tal que la media $p = g(\mathbf{X}\beta)$ se relaciona con la varianza mediante $\mbox{var}(Y_i) = p_i(1-p_i)$ . Esto sugiere una interpretación de un modelo GLM mal especificado como aquel que da un residuo medio de Pearson de 0. Esto sugiere además una generalización para permitir derivadas de media funcionales no proporcionales y relaciones de media-varianza.

A ecuación de estimación generalizada El enfoque especificaría los modelos lineales de la siguiente manera:

$$0 = \frac{\partial g(\mathbf{X}\beta)}{\partial \beta} \mathbf{V}^{-1}\left(Y - g(\mathbf{X}\beta)\right)$$

Con $\mathbf{V}$ una matriz de varianzas basada en el valor ajustado (media) dado por $g(\mathbf{X}\beta)$ . Este enfoque de la estimación permite elegir una función de enlace y una relación de varianza media como en los GLM.

En la regresión logística $g$ sería el logit inverso, y $V_{ii}$ vendría dado por $g(\mathbf{X}_i \beta)(1-g(\mathbf{X}\beta))$ . Las soluciones de esta ecuación de estimación, obtenidas por Newton-Raphson, darán lugar a la $\beta$ obtenido de la regresión logística. Sin embargo, una clase algo más amplia de modelos es estimable en un marco similar. Por ejemplo, la función de enlace puede tomarse como la Registro del predictor lineal para que los coeficientes de regresión sean riesgos relativos y no cocientes de probabilidades . Lo cual -dado el bien documentado peligro de interpretar las ORs como RRs- me lleva a preguntarme por qué nadie ajusta ya los modelos de regresión logística.

1 votos

+1 gran respuesta. formularlo como un hallazgo de la raíz en la derivada es realmente nuevo para mí. y la segunda ecuación es realmente concisa.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X