Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

9 votos

¿Cuáles son algunas de las razones por las que los mínimos cuadrados reponderados iterativamente no convergerían cuando se utilizan para la regresión logística?

He estado utilizando la función glm.fit en R para ajustar parámetros a un modelo de regresión logística. Por defecto, glm.fit utiliza mínimos cuadrados iterativamente reponderados para ajustar los parámetros. ¿Cuáles son algunas de las razones por las que este algoritmo podría no converger, cuando se utiliza para la regresión logística?

2 votos

No sé cómo juzgar "lo más común", ya que lo que es común para la gente que trabaja en un área puede ser poco común para otra. [Una razón (de las muchas posibles) podría ser la separación completa, en la que, a lo largo de una combinación lineal de predictores, todos los 0 están por encima o por debajo de todos los 1. Se puede utilizar una combinación lineal de predictores. A veces se puede ver cuándo ocurre porque al menos un parámetro tenderá a dirigirse hacia el infinito].

0 votos

@Glen_b: Gracias por tu comentario, lo cambiaré por "algunas razones".

14voto

WinWin Puntos 395

En caso de que las dos clases sean separables, se romperían los mínimos cuadrados reponderados iterativamente (IRLS). En tal caso, cualquier hiperplano que separe las dos clases es una solución y hay infinitos. El IRLS pretende encontrar una solución de máxima verosimilitud. La máxima verosimilitud no tiene un mecanismo para favorecer ninguna de estas soluciones sobre la otra (por ejemplo, no existe el concepto de margen máximo). Dependiendo de la inicialización, IRLS debe ir hacia una de estas soluciones y se rompería debido a problemas numéricos (no conozco los detalles de IRLS; una conjetura).

Otro problema surge en caso de separabilidad lineal de los datos de formación. Cualquiera de las soluciones del hiperplano corresponde a una función heaviside. Por lo tanto, todas las probabilidades son o 0 o 1. La solución de regresión lineal sería un clasificador duro en lugar de un clasificador probabilístico.

Para aclararlo utilizando notación matemática, la función heaviside es lim el límite de la función sigmoidea, donde \sigma es la función sigmoidea y (\mathbf{w}, b) determina la solución del hiperplano. Así que el IRLS teóricamente no se detiene y va hacia un \mathbf{w} con magnitud creciente, pero se rompería en la práctica debido a problemas numéricos.

9voto

Andrew M Puntos 1141

Además de la separación lineal (en la que el MLE se encuentra en el límite del espacio de parámetros), el procedimiento de puntuación de Fisher en R no es completamente estable desde el punto de vista numérico. Toma pasos de tamaño fijo, lo que en ciertos casos patológicos puede conducir a la no convergencia (cuando el verdadero MLE es de hecho un punto interior).

Por ejemplo,

y <- c(1,1,1,0)
x <- rep(1,4)
fit1 <- glm.fit(x,y, family=binomial(link="logit"),start=-1.81)

arroja un coeficiente de 2 \times 10^{15} en lugar del logit esperado (3/4) \approx 1.0986 .

El paquete CRAN glm2 sustituye directamente a glm.fit que ajusta el tamaño del paso para garantizar la convergencia monótona.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X