41 votos

¿Cuándo se resuelve la regresión logística en forma cerrada?

Toma $x \in \{0,1\}^d$ y $y \in \{0,1\}$ y supongamos que modelamos la tarea de predecir y dada x mediante una regresión logística. ¿Cuándo se pueden escribir los coeficientes de la regresión logística en forma cerrada?

Un ejemplo es cuando utilizamos un modelo saturado.

Es decir, definir $P(y|x) \propto \exp(\sum_i w_i f_i(x_i))$ , donde $i$ indexa conjuntos en el conjunto de potencias de $\{x_1,\ldots,x_d\}$ y $f_i$ devuelve 1 si todas las variables del $i$ son 1, y 0 en caso contrario. Entonces se puede expresar cada $w_i$ en este modelo de regresión logística como logaritmo de una función racional de las estadísticas de los datos.

¿Hay otros ejemplos interesantes cuando existe una forma cerrada?

47voto

StasK Puntos 19497

Como ha señalado kjetil b halvorsen, es, a su manera, un milagro que la regresión lineal admita una solución analítica. Y esto es así sólo en virtud de la linealidad del problema (con respecto a los parámetros). En OLS, se tiene $$ \sum_i (y_i - x_i' \beta)^2 \to \min_\beta, $$ que tiene las condiciones de primer orden $$ -2 \sum_i (y_i - x_i'\beta) x_i = 0 $$ Para un problema con $p$ variables (incluyendo la constante, si es necesario - hay algunos problemas de regresión a través del origen, también), este es un sistema con $p$ ecuaciones y $p$ desconocidos. Lo más importante es que se trata de un sistema lineal, por lo que se puede encontrar una solución utilizando la norma teoría y práctica del álgebra lineal . Este sistema tendrá una solución con probabilidad 1 a menos que tenga variables perfectamente colineales.

Ahora, con la regresión logística, las cosas ya no son tan fáciles. Escribiendo la función de probabilidad logarítmica, $$ l(y;x,\beta) = \sum_i y_i \ln p_i + (1-y_i) \ln(1-p_i), \quad p_i = (1+\exp(-\theta_i))^{-1}, \quad \theta_i = x_i' \beta, $$ y tomando su derivada para encontrar la MLE, obtenemos $$ \frac{\partial l}{\partial \beta'} = \sum_i \frac{{\rm d}p_i}{{\rm d}\theta}\Bigl( \frac{y_i}{p_i} - \frac{1-y_i}{1-p_i} \Bigr)x_i = \sum_i \Bigl[y_i-\frac1{1+\exp(x_i'\beta)}\Bigr]x_i $$ Los parámetros $\beta$ entrar en esto de una manera muy no lineal: para cada $i$ , hay una función no lineal, y se suman. No hay solución analítica (excepto probablemente en una situación trivial con dos observaciones, o algo así), y hay que utilizar métodos de optimización no lineal para encontrar las estimaciones $\hat\beta$ .

Un examen más profundo del problema (tomando la segunda derivada) revela que se trata de un problema de optimización convexo que consiste en encontrar el máximo de una función cóncava (una parábola multivariable glorificada), por lo que o bien existe uno, y cualquier algoritmo razonable debería encontrarlo con bastante rapidez, o bien las cosas se disparan hasta el infinito. Esto último ocurre con la regresión logística cuando ${\rm Prob}[Y_i=1|x_i'\beta > c] = 1$ para algunos $c$ es decir, tienes una predicción perfecta. Este es un artefacto bastante desagradable: se podría pensar que cuando se tiene una predicción perfecta, el modelo funciona perfectamente, pero curiosamente es al revés.

16voto

giulio Puntos 166

Este post pretendía ser un comentario largo más que una respuesta completa a la pregunta en cuestión.

Por la pregunta, no queda claro si el interés radica sólo en el caso binario o, quizás, en casos más generales en los que pueden ser continuos o tomar otros valores discretos.

Un ejemplo que no responde del todo a la pregunta, pero que está relacionado, y que me gusta, se refiere a las clasificaciones de preferencia de artículos obtenidas mediante comparaciones por pares. El modelo Bradley-Terry puede expresarse como una regresión logística en la que $$ \mathrm{logit}( \Pr(Y_{ij} = 1) ) = \alpha_i - \alpha_j , $$ y $\alpha_i$ es un parámetro de "afinidad", "popularidad" o "fuerza" del elemento $i$ con $Y_{ij} = 1$ indicando el artículo $i$ se prefirió a la partida $j$ en una comparación por parejas.

Si se realiza una ronda completa de comparaciones (es decir, se registra una preferencia por pares para cada $(i,j)$ par), entonces resulta que el orden de clasificación de los MLEs $\hat{\alpha}_i$ corresponden al orden de clasificación de $S_i = \sum_{j \neq i} Y_{ij}$ La suma total de veces que cada objeto fue preferido sobre otro.

Para interpretar esto, imagine un torneo completo de ida y vuelta en su deporte competitivo favorito. Entonces, este resultado dice que el modelo Bradley-Terry clasifica a los jugadores/equipos según su porcentaje de victorias. Supongo que el hecho de que este resultado sea alentador o decepcionante depende de su punto de vista.

NB Este resultado de ordenamiento no se mantiene, en general, cuando no se juega un round-robin completo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X