59 votos

Regresión logística multinomial frente a la regresión logística binaria de uno a uno

Digamos que tenemos una variable dependiente $Y$ con pocas categorías y un conjunto de variables independientes.

¿Cuáles son las ventajas de la regresión logística multinomial sobre el conjunto de regresiones logísticas binarias (es decir esquema de uno contra uno )? Por conjunto de regresión logística binaria quiero decir que para cada categoría $y_{i} \in Y$ construimos un modelo de regresión logística binaria independiente con objetivo=1 cuando $Y=y_{i}$ y 0 en caso contrario.

4 votos

Matemáticamente, un modelo logit multinomial es un conjunto de modelos logit binarios, todos ellos comparados con una alternativa base. Pero como se consigue colapsar los parámetros genéricos y quizás combinar algunos otros, el MNL siempre será al menos igual de eficiente (y probablemente más). No veo ninguna razón para utilizar nunca una serie de modelos binomiales.

3 votos

@gmacfarlane: He intentado simular datos en los que MNL sería mejor que las series de regresiones logísticas binarias, pero cada vez en promedio la calidad era la misma. Estuve comparando gráficos de elevación y después de promediar los resultados de algunas simulaciones se veían casi iguales. ¿Tal vez usted tiene una idea de cómo generar datos para que MNL supere a las regresiones logísticas binarias? Aunque MNL tenía una gran ventaja, sus resultados podían interpretarse como probabilidad.

0 votos

La regresión logística multinomial es la extensión de la regresión logística binaria. Se utiliza cuando las variables dependientes del estudio son tres o más, mientras que el logit binario se utiliza cuando las variables dependientes del estudio son dos.

35voto

Uri Puntos 111

Si $Y$ tiene más de dos categorías su pregunta sobre la "ventaja" de una regresión sobre la otra probablemente no tenga sentido si se trata de comparar los parámetros de los modelos porque los modelos serán fundamentalmente diferentes:

$\bf log \frac{P(i)}{P(not~i)}=logit_i=linear~combination$ para cada $i$ logística binaria regresión, y

$\bf log \frac{P(i)}{P(r)}=logit_i=linear~combination$ para cada $i$ categoría en logística múltiple regresión, $r$ siendo la categoría de referencia elegida ( $i \ne r$ ).

Sin embargo, si su objetivo es sólo predecir la probabilidad de cada categoría $i$ Cualquiera de los dos enfoques está justificado, aunque pueden dar estimaciones de probabilidad diferentes. La fórmula para estimar una probabilidad es genérica:

$\bf P'(i)= \frac{exp(logit_i)}{exp(logit_i)+exp(logit_j)+\dots+exp(logit_r)}$ , donde $i,j,\dots,r$ son todas las categorías, y si $r$ fue elegido para ser la referencia su $\bf exp(logit)=1$ . Así, para la logística binaria esa misma fórmula se convierte en $\bf P'(i)= \frac{exp(logit_i)}{exp(logit_i)+1}$ . La logística multinomial se basa en la suposición (no siempre realista) de independencia de las alternativas irrelevantes mientras que una serie de predicciones logísticas binarias no.


Un tema aparte es cuáles son las diferencias técnicas entre las regresiones logísticas multinomiales y binarias en caso de que $Y$ es dicotómico . ¿Habrá alguna diferencia en los resultados? La mayoría de las veces, en ausencia de covariables, los resultados serán los mismos, aunque hay diferencias en los algoritmos y en las opciones de salida. Permítame citar la Ayuda de SPSS sobre esta cuestión en SPSS:

Los modelos de regresión logística binaria pueden ajustarse mediante el procedimiento procedimiento de regresión logística o el procedimiento de regresión logística multinomial o el procedimiento de regresión logística multinomial. Cada procedimiento tiene opciones que no están disponibles en el otro. Un distinción teórica importante es que el procedimiento de regresión logística produce todas las predicciones, residuos, estadísticas de influencia y pruebas de bondad de ajuste utilizando datos a nivel de caso individual, independientemente de cómo se introduzcan los datos y de si el número de patrones de covariables es menor que el número total de casos, mientras que el procedimiento de Regresión Logística Multinomial agrega internamente casos para formar subpoblaciones con patrones de covariables idénticos para los de los predictores, produciendo predicciones, residuos y pruebas de bondad de ajuste de ajuste basados en estas subpoblaciones. Si todos los predictores son categóricos o cualquier predictor continuo toma sólo un número limitado de valores -de modo que hay varios casos en cada patrón de covariable distinto- el enfoque de subpoblación puede de covariables, el enfoque de subpoblación puede producir pruebas de bondad de ajuste válidas y residuos informativos. de ajuste y residuos informativos, mientras que el enfoque a nivel de caso individual individual no puede.

Regresión logística ofrece las siguientes características únicas:

  • Prueba de Hosmer-Lemeshow de bondad de ajuste del modelo
  • Análisis por etapas
  • Contrastes para definir la parametrización del modelo
  • Puntos de corte alternativos para la clasificación
  • Parcelas de clasificación
  • Modelo ajustado en un conjunto de casos a un conjunto de casos retenidos
  • Guarda las predicciones, los residuos y las estadísticas de influencia

Logística multinomial La regresión ofrece las siguientes características únicas características únicas:

  • Pruebas de chi-cuadrado de Pearson y de desviación para la bondad de ajuste del modelo
  • Especificación de subpoblaciones para la agrupación de datos para pruebas de bondad de ajuste
  • Listado de recuentos, recuentos previstos y residuos por subpoblaciones
  • Corrección de las estimaciones de la varianza por exceso de dispersión
  • Matriz de covarianza de las estimaciones de los parámetros
  • Pruebas de combinaciones lineales de parámetros
  • Especificación explícita de los modelos anidados
  • Ajuste de modelos de regresión logística condicional emparejados 1-1 utilizando variables diferenciadas

0 votos

Sé que estos modelos serán diferentes, pero no sé cuál es mejor en cada situación. Plantearé la pregunta de otra manera. Si te dieran una tarea: Para cada persona predecir la probabilidad de que alguna compañía de telefonía móvil sea la favorita (supongamos que cada uno tiene una compañía de telefonía móvil favorita). ¿Cuál de estos métodos utilizaría y cuáles son las ventajas sobre el segundo?

0 votos

@Tomek he ampliado un poco mi respuesta

0 votos

Aunque creo que la de @julieth es la mejor respuesta a la pregunta original de O.P., te debo la introducción al supuesto de la Independencia de las Alternativas Irrelevantes. Una pregunta que todavía tengo es si la logística separada realmente lo evita; el artículo de la Wikipedia que enlazaste mencionaba el probit y el "logit anidado" como permitiendo violaciones de la IIA

23voto

Ahsan Puntos 43

Por el título, supongo que "ventajas de la regresión logística múltiple" significa "regresión multinomial". A menudo hay ventajas cuando el modelo se ajusta simultáneamente. Esta situación particular se describe en Agresti (Categorical Data Analysis, 2002) pg 273. En resumen (parafraseando a Agresti), se espera que las estimaciones de un modelo conjunto sean diferentes a las de un modelo estratificado. Los modelos logísticos separados tienden a tener errores estándar más grandes, aunque puede no ser tan malo cuando el nivel más frecuente del resultado se establece como nivel de referencia.

0 votos

Gracias. Intentaré encontrar este libro, desafortunadamente google.books sólo proporciona contenido hasta la página 268.

0 votos

@TomekTarczynski He resumido la información relevante del párrafo, por lo que es posible que no obtengas más información relacionada con esta pregunta mirando el libro (aunque el libro es genial por lo que obtendrás otra buena información).

9 votos

Cita del libro de Agresti: "Las estimaciones de ajuste por separado difieren de las estimaciones ML para el ajuste simultáneo de los logits J-1. Son menos eficientes y tienden a tener errores estándar más grandes. Sin embargo, Begg y Gray 1984 mostraron que la pérdida de eficiencia es menor cuando la categoría de respuesta que tiene mayor prevalencia es la línea de base".

6voto

JanithaR Puntos 141

No creo que las respuestas anteriores capten realmente la diferencia clave, aunque está implícita en la discusión sobre la independencia de las alternativas irrelevantes (que es un término de las ciencias sociales más que de la estadística).

Si utiliza un modelo multinomial, sus predicciones para las diferentes opciones suman 1; si utiliza n modelos de regresión logística diferentes, no lo harán.

El modelo multinomial es preferible cuando hay un conjunto fijo de clases, y son mutuamente excluyentes.

Así, por ejemplo, en el caso: "Para cada persona, prediga la probabilidad de que alguna compañía de telefonía móvil sea la favorita (supongamos que todos tienen una compañía de telefonía móvil favorita). ¿Cuál de estos métodos utilizarías y cuáles son las ventajas sobre el segundo?"

Si cree que hay un conjunto fijo e invariable de compañías telefónicas, entonces la regresión multinomial sería apropiada. Si, por el contrario, se trata de predecir las 3 primeras empresas (que son fijas), pero también hay una cola de empresas más pequeñas que no se modelan, entonces sugeriría que 1 frente al resto de las 3 primeras empresas es adecuado (porque las 3 primeras no cubren el 100% de los encuestados)

0 votos

Sería estupendo si pudieras compartir una referencia/recurso para leer más sobre esto.

3voto

GotAQuestion Puntos 26

Parece que la pregunta no se refería en absoluto a las diferencias de aplicación/estructura entre (a) el modelo de regresión softmax (logística multinomial) y (b) el modelo "compuesto" de OvR basado en múltiples modelos de regresión logística binaria. Sin embargo, en pocas palabras, y obviando todas las fórmulas, estas diferencias pueden resumirse así:

  • Formación El modelo de regresión softmax utiliza el función de coste de entropía cruzada mientras que el modelo "compuesto" de OvR basado en múltiples regresores logísticos binarios entrena clasificadores logit binarios completamente independientes utilizando el función de coste de regresión logística .
  • Representación del modelo entrenado no hay mucha diferencia - en softmax cada clase tiene su propio vector de parámetros, y estos vectores se almacenan juntos en una matriz de parámetros común, mientras que en OvR logit hay exactamente tantos vectores de parámetros separados, uno para cada clase positiva.
  • Evaluación El modelo de regresión softmax utiliza el función softmax que predice una probabilidad para cada clase teniendo en cuenta las puntuaciones de las demás clases, mientras que el modelo "compuesto" de OvR, basado en múltiples regresores logísticos binarios, calcula las puntuaciones/probabilidades de las clases de forma totalmente independiente y, a continuación, sólo elige la etiqueta con la puntuación más alta.

También parece que no era necesario explicar las diferencias entre los modelos binarios, los modelos "compuestos" OvR/OvO y los clasificadores "nativos" multietiqueta como el regresor logístico multinomial (también conocido como regresor softmax).

Creo que la pregunta se refería más bien a LA PRECISIÓN :

La regresión softmax ( LogisticRegression(multi_class="multinomial") en scikit-learn) es más flexible a la hora de establecer los límites de decisión lineal entre las clases. Aquí hay una ilustración bidimensional de tres clases de esto:
https://scikit-learn.org/stable/auto_examples/linear_model/plot_logistic_multinomial.html

El ejemplo anterior podría haberse beneficiado de las matrices de confusión, así que aquí están (normalizadas):

enter image description here

Este no es un problema de clasificación difícil: las instancias de las tres clases apenas se mezclan, por lo que deberíamos esperar una precisión muy alta para todas las clases. Pero OvR Logit tropieza cuando identifica la clase "media". En general, OvR Logit tendrá un mal rendimiento cuando haya una baja distinción para alguna clase sólo por los valores de las características. Sólo le gustan las clases "difíciles".

Para la clasificación binaria, esto no es una desventaja en comparación con Softmax/multinomial, ya que este último también establece un límite lineal entre las dos clases.
O imagine tres clusters que están aproximadamente a las mismas distancias entre sí (es decir, cada cluster de clase está en el vértice de un triángulo equilátero). En este caso, la precisión tanto de OvR Logit como de Softmax será buena para todas las clases.

Sin embargo, imagine que uno de los tres conglomerados se encuentra en la línea recta entre los centros de los otros dos conglomerados o cerca de ella... La precisión de OvR Logit para esa clase "media" será pobre. El regresor Softmax/multinomial lo hará bien (aunque sus límites de decisión sigan siendo líneas rectas).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X