19 votos

Coeficiente negativo en la regresión logística ordenada

Supongamos que tenemos la respuesta ordinal $y:\{\text{Bad, Neutral, Good}\} \rightarrow \{1,2,3\}$ y un conjunto de variables $X:=[x_1,x_2,x_3]$ que creemos que explicará $y$ . A continuación, realizamos una regresión logística ordenada de $X$ (matriz de diseño) en $y$ (respuesta).

Supongamos que el coeficiente estimado de $x_1$ Llámalo $\hat{\beta}_1$ en la regresión logística ordenada es $-0.5$ . ¿Cómo interpreto la odds ratio (OR) de $e^{-0.5} = 0.607$ ?

¿Debo decir "para un aumento de 1 unidad en $x_1$ ceteris paribus, las probabilidades de observar $\text{Good}$ son $0.607$ veces las probabilidades de observar $\text{Bad}\cup \text{Neutral}$ y para el mismo cambio en $x_1$ las probabilidades de observar $\text{Neutral} \cup \text{Good}$ son $0.607$ veces las probabilidades de observar $\text{Bad}$ "?

No encuentro ejemplos de interpretación de coeficientes negativos en mi libro de texto ni en Google.

30voto

ashwnacharya Puntos 3144

Vas por buen camino, pero echa siempre un vistazo a la documentación del programa que utilizas para ver qué modelo se ajusta realmente. Supongamos una situación con una variable dependiente categórica $Y$ con categorías ordenadas $1, \ldots, g, \ldots, k$ y predictores $X_{1}, \ldots, X_{j}, \ldots, X_{p}$ .

"En la naturaleza, se pueden encontrar tres opciones equivalentes para escribir el modelo teórico de probabilidades proporcionales con diferentes significados implícitos de los parámetros:

  1. $\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} + \beta_{1} X_{1} + \dots + \beta_{p} X_{p} \quad(g = 1, \ldots, k-1)$
  2. $\text{logit}(p(Y \leqslant g)) = \ln \frac{p(Y \leqslant g)}{p(Y > g)} = \beta_{0_g} - (\beta_{1} X_{1} + \dots + \beta_{p} X_{p}) \quad(g = 1, \ldots, k-1)$
  3. $\text{logit}(p(Y \geqslant g)) = \ln \frac{p(Y \geqslant g)}{p(Y < g)} = \beta_{0_g} + \beta_{1} X_{1} + \dots + \beta_{p} X_{p} \quad(g = 2, \ldots, k)$

(Los modelos 1 y 2 tienen la restricción de que en el $k-1$ regresiones logísticas binarias separadas, el $\beta_{j}$ no varían con $g$ y $\beta_{0_1} < \ldots < \beta_{0_g} < \ldots < \beta_{0_k-1}$ el modelo 3 tiene la misma restricción sobre el $\beta_{j}$ y exige que $\beta_{0_2} > \ldots > \beta_{0_g} > \ldots > \beta_{0_k}$ )

  • En el modelo 1, un $\beta_{j}$ significa que un aumento del predictor $X_{j}$ se asocia a un aumento de las probabilidades de inferior categoría en $Y$ .
  • El modelo 1 es algo contraintuitivo, por lo que el modelo 2 o 3 parecen ser los preferidos en software. En este caso, un $\beta_{j}$ significa que un aumento del predictor $X_{j}$ se asocia a un aumento de las probabilidades de superior categoría en $Y$ .
  • Los modelos 1 y 2 conducen a las mismas estimaciones para el $\beta_{0_g}$ pero sus estimaciones para el $\beta_{j}$ tienen signos opuestos.
  • Los modelos 2 y 3 conducen a las mismas estimaciones para el $\beta_{j}$ pero sus estimaciones para el $\beta_{0_g}$ tienen signos opuestos.

Suponiendo que su software utilice el modelo 2 o 3, puede decir "con un aumento de 1 unidad en $X_1$ ceteris paribus, el previsión probabilidades de observar ' $Y = \text{Good}$ ' frente a observar ' $Y = \text{Neutral OR Bad}$ cambia en un factor de $e^{\hat{\beta}_{1}} = 0.607$ .", e igualmente "con un aumento de 1 unidad en $X_1$ ceteris paribus, el previsión probabilidades de observar ' $Y = \text{Good OR Neutral}$ ' frente a observar ' $Y = \text{Bad}$ cambia en un factor de $e^{\hat{\beta}_{1}} = 0.607$ ." Tenga en cuenta que, en el caso empírico, sólo disponemos de las probabilidades previstas, no de las reales.

Estas son algunas ilustraciones adicionales para el modelo 1 con $k = 4$ categorías. En primer lugar, el supuesto de un modelo lineal para los logits acumulativos con probabilidades proporcionales. En segundo lugar, las probabilidades implícitas de observar como máximo la categoría $g$ . Las probabilidades siguen funciones logísticas con la misma forma. enter image description here

Para las propias probabilidades de categoría, el modelo representado implica las siguientes funciones ordenadas: enter image description here

P.D. Que yo sepa, el modelo 2 se utiliza tanto en SPSS como en las funciones de R MASS::polr() y ordinal::clm() . El modelo 3 se utiliza en las funciones R rms::lrm() y VGAM::vglm() . Por desgracia, no conozco SAS ni Stata.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X