14 votos

Puedo usar glm algoritmos para hacer una regresión logística multinomial?

Estoy usando spotfire (S++) para el análisis estadístico en mi proyecto y tengo que correr la regresión logística multinomial para un gran conjunto de datos. Sé el mejor algoritmo habría sido mlogit, pero que por desgracia no está disponible en s++. Sin embargo, tengo la opción de utilizar glm algoritmo para esta regresión. Quiero aclarar dos cosas aquí:

1.Es mi entendimiento correcto que glm también puede ser utilizado para ejecutar la Regresión Logística Multinomial?

  1. Si la respuesta a la pregunta anterior es sí, entonces, ¿qué parámetros deben ser utilizados en glm algo?

Gracias,

3voto

patfla Puntos 1

Sí se puede, y de hecho, esto es precisamente lo que el paquete de R GLMNET para la regresión logística multinomial. Escribir la función de verosimilitud logarítmica como:

$$LogL=\sum_i\sum_cn_{ic}\log(p_{ic})$$

Donde $i$ denota observaciones y $c$ denota la multinomial categorías $n_{ic}$ es el observado contar para la observación $i$ en categoría $c$. Las observaciones se definen por su única covariable combinaciones - o bien podemos permitir duplicados y de conjunto de cada una de las $n_{ic}=1$, de modo que hemos categórico "binario" de datos (....no sabemos cuál es el plural de binario es....). Para la regresión logística de la probabilidad se define como:

$$p_{ic}=\frac{\exp\left(x_{i}^T\beta_{c}\right)}{\sum_{c'}\exp\left(x_{i}^T\beta_{c'}\right)}$$

Este es un completo rango de parametrización y puede ser útil si usted está usando sancionado probabilidad (como GLMNET). Podríamos, en principio, el uso de NIÑAS/newton rhapson en el pleno de la beta de la matriz $(\beta_1,\dots,\beta_{C})$, sin embargo, usted termina con no-diagonal peso de las matrices. Alternativamente, podemos optimizar "de Gibbs-estilo" mediante la fijación de todas las categorías betas, excepto por uno, y, a continuación, la optimización de poco más de esa categoría. A continuación, proceder a la categoría siguiente, y así sucesivamente. Se puede ver que debido a que las probabilidades de tener la forma

$$p_{ic}=\frac{\exp\left(x_{i}^T\beta_{c}\right)}{\exp\left(x_{i}^T\beta_{c}\right)+A}\text{ where }\frac{\partial A}{\partial \beta_c}=0$$ $$p_{ic'}=\frac{B}{\exp\left(x_{i}^T\beta_{c}\right)+A}\text{ where }\frac{\partial B}{\partial \beta_c}=0$$

Que la cuadrática de expansión sobre $\beta_c$ va a tener la misma forma que para la regresión logística, pero con las NIÑAS pesos calcula de forma diferente - aunque todavía tenemos $W_{ii,c}=n_{ic}p_{ic}(1-p_{ic})$ habitual en las $(X^TWX)^{-1}X^TWY$ actualización de la beta.

2voto

Momo Puntos 5125

Sí, con una distribución de Poisson GLM (registro de modelo lineal) se puede encajar multinomial modelos. Por lo tanto logística multinomial o registro lineal de Poisson modelos son equivalentes.

Usted necesita ver al azar recuentos $y_{ij}$ como variables aleatorias de Poisson, con los medios de $μ_{ij}$ y especifique los siguientes los siguientes log-lineal de la modelo

$\log(μ_{ij}) = o + p_i + c_j + x_iβ_j$

Para obtener un modelo logit multinomial modelo de los parámetros son:

Un parámetro de $p_i$ por cada multinomial de observación, por ejemplo, los individuos o grupos. Esto asegura la reproducción exacta de la multinomial denominadores y de hecho establece la equivalencia de Poisson y modelo multinomial. Se fija en la probabilidad multinomial, pero al azar en la probabilidad de Poisson.

Un parámetro de $c_j$ para cada categoría de respuesta. De esta manera el número puede ser diferente para cada categoría de respuesta y los márgenes puede ser no uniforme.

Lo que usted está realmente interesado en los términos de interacción $x_iβ_j$ que representan los efectos de $x_i$ en el log-odds de respuesta $j$.

El log-odds pueden ser, simplemente, calculado por $\log(μ_{ij}/μ_{ik}) = (c_j-c_k) +x_i(β_j-β_k)$. Es el registro de las probabilidades de que la observación que voy a caer en la categoría de respuesta de j en relación a la categoría de respuesta $k$.

Entonces, los parámetros del modelo logit multinomial (señalados en las letras latinas) puede obtenerse como las diferencias entre los parámetros en el registro correspondiente-modelo lineal, es decir,$a_j = α_j-α_k$$b_j = β_j-β_k$.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X