27 votos

Ayúdame a entender la proporción de probabilidades ajustadas en la regresión logística

Me ha costado mucho entender el uso de la regresión logística en un periódico. El documento disponible aquí utiliza la regresión logística para predecir la probabilidad de complicaciones durante la cirugía de cataratas.

Lo que me confunde es que el documento presenta un modelo que asigna una relación de probabilidades de 1 a la línea de base que se describe a continuación:

Se puede considerar que un paciente cuyo perfil de riesgo estaba en el grupo de referencia para todos los indicadores de riesgo (es decir, OR ajustado = 1,00 para todos en la Tabla 1) tiene un "perfil de riesgo base", y el modelo de regresión logística indica una "probabilidad predicha base" para la PCR o VL o ambas = 0,736%.

Así que la probabilidad de 0,00736 se presenta con un odds ratio de 1. Basado en la transformación de probabilidades a odds ratios: $o= \frac {p}{1-p}$ esto no puede ser igual a 1: $0.00741= \frac {0.00736}{1-0.00736}$ .

Se vuelve aún más confuso. Las probabilidades compuestas que representan múltiples covariables con valores diferentes a la línea de base se utilizan para calcular el riesgo previsto.

...el OR compuesto de la Tabla 1 sería 1,28 X 1,58 X 2,99 X 2,46 X 1,45 X 1,60 = 34,5, y del gráfico de la figura 1, vemos que este OR corresponde a una probabilidad prevista de PCR o VL o ambas de alrededor del 20%

La única forma de llegar a los valores que el documento da como ejemplos es multiplicar la probabilidad base con probabilidades compuestas como esta: $0.2025= \frac {(34.50\ \times\ 0.00736)}{1\ +\ (34.50\ \times\ 0.00736)}$ .

Entonces, ¿qué está pasando aquí? ¿Cuál es la lógica para asignar la proporción de probabilidades 1 a una probabilidad base que no es 0,5? La fórmula de actualización que he presentado anteriormente da las probabilidades correctas para los ejemplos del documento, pero esta no es la multiplicación directa de la proporción de probabilidad que yo esperaría. ¿Qué es entonces?

43voto

jldugger Puntos 7490

Probabilidades son una forma de expresar las oportunidades. Ratios de probabilidad son sólo eso: una probabilidad dividida por otra. Eso significa que una proporción de probabilidades es lo que se multiplica una probabilidad por la que se produce otra. Veamos cómo funcionan en esta situación común.

Convirtiendo entre probabilidades y probabilidades

Las probabilidades de una respuesta binaria $Y$ son la proporción de la posibilidad de que ocurra (codificada con $1$ ), escrito $ \Pr (Y=1)$ a la posibilidad de que no lo haga (codificado con $0$ ), escrito $ \Pr (Y=0)$ :

$$ \text {Odds}(Y) = \frac { \Pr (Y=1)}{ \Pr (Y=0)} = \frac { \Pr (Y=1)}{1 - \Pr (Y=1)}.$$

La expresión equivalente de la derecha muestra que basta con modelar $ \Pr (Y=1)$ para encontrar las probabilidades. Por el contrario, tenga en cuenta que podemos resolver

$$ \Pr (Y=1) = \frac { \text {Odds}(Y)}{1 + \text {Odds}(Y)} = 1 - \frac {1}{1 + \text {Odds}(Y)}.$$

Regresión logística

La regresión logística modela la logaritmo de las probabilidades de $Y$ como una función lineal de variables explicativas. En general, escribir estas variables como $x_1, \ldots , x_p$ e incluyendo un posible término constante en la función lineal, podemos nombrar los coeficientes (que deben ser estimados a partir de los datos) como $ \beta_1 , \ldots , \beta_p $ y $ \beta_0 $ . Formalmente esto produce el modelo

$$ \log\left ( \text {Odds}(Y) \right ) = \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p.$$

Las probabilidades en sí mismas pueden recuperarse deshaciendo el logaritmo:

$$ \text {Odds}(Y) = \exp ( \beta_0 + \beta_1 x_1 + \cdots + \beta_p x_p).$$

Usando variables categóricas

Variables categóricas, como el grupo de edad, el sexo, la presencia de glaucoma, etc. se incorporan mediante "codificación ficticia". Para demostrar que no importa cómo se codifique la variable, daré un ejemplo sencillo de un pequeño grupo; su generalización a múltiples grupos debería ser obvia. En este estudio una variable es el "tamaño de la pupila", con tres categorías, "Grande", "Mediana" y "Pequeña". (El estudio trata estas categorías como puramente categóricas, aparentemente sin prestar atención a su orden inherente). Intuitivamente, cada categoría tiene sus propias probabilidades, digamos $ \alpha_L $ para "Grande", $ \alpha_M $ para "Medium", y $ \alpha_S $ para "Pequeño". Esto significa que, todas las demás cosas son iguales,

$$ \text {Odds}(Y) = \exp ( \color {Blue}{ \alpha_L + \beta_0 } + \beta_1 x_1 + \cdots + \beta_p x_p)$$

para cualquiera en la categoría "Grande",

$$ \text {Odds}(Y) = \exp ( \color {Blue}{ \alpha_M + \beta_0 } + \beta_1 x_1 + \cdots + \beta_p x_p)$$

para cualquiera en la categoría de "Medio", y

$$ \text {Odds}(Y) = \exp ( \color {Blue}{ \alpha_S + \beta_0 } + \beta_1 x_1 + \cdots + \beta_p x_p)$$

para los de la categoría "Pequeño".

Creación de coeficientes identificables

He coloreado los dos primeros coeficientes para resaltarlos, porque quiero que noten que permiten un simple cambio: podríamos elegir cualquier número $ \gamma $ y, al añadirlo a $ \beta_0 $ y restándolo de cada uno de los $ \alpha_L $ , $ \alpha_M $ y $ \alpha_S $ , no cambiaríamos ninguna de las probabilidades previstas. Esto se debe a las evidentes equivalencias de la forma

$$ \alpha_L + \beta_0 = ( \alpha_L - \gamma ) + ( \gamma + \beta_0 ),$$

etc. Aunque esto no presenta ningún problema para el modelo - todavía predice exactamente las mismas cosas - muestra que los parámetros no son en sí mismos interpretables. Lo que permanece igual cuando hacemos esta maniobra de suma y resta son los diferencias entre los coeficientes. Convencionalmente, para abordar esto la falta de identificabilidad, La gente (y por defecto, el software) elige una de las categorías de cada variable como "base" o "referencia" y simplemente estipula que su coeficiente será cero. Esto elimina la ambigüedad.

En el documento se enumeran primero las categorías de referencia; "Grande" en este caso. Por lo tanto, $ \alpha_L $ se sustrae de cada uno de los $ \alpha_L , \alpha_M ,$ y $ \alpha_S $ y añadido a $ \beta_0 $ para compensar.

Por lo tanto, las probabilidades logarítmicas de que un individuo hipotético caiga en todas las categorías de base son iguales $ \beta_0 $ además de un montón de términos asociados con todas las demás "covariables" las variables no categóricas:

$$ \text {Odds(Base category)} = \exp ( \beta_0 + \beta_1X_1 + \cdots + \beta_p X_p).$$

No los términos asociados con cualquier variable categórica aparecen aquí. (He cambiado ligeramente la notación en este punto: las betas $ \beta_i $ ahora son los coeficientes sólo de la covariables mientras que el modelo completo incluye los alfas $ \alpha_j $ para las diversas categorías).

Comparando las probabilidades

Comparemos las probabilidades. Supongamos que un individuo hipotético es un

Paciente varón de 80-89 años con una catarata blanca, sin visión del fondo, y una pequeña pupila que está siendo operada por un especialista en registro, ...

Asociado a este paciente (llamémosle Charlie) hay coeficientes estimados para cada categoría: $ \alpha_\text {80-89}$ para su grupo de edad, $ \alpha_\text {male}$ por ser hombre, etc. Cuando su atributo es la base de su categoría, el coeficiente es cero por convención como hemos visto. Porque este es un modelo lineal, los coeficientes se suman. Por lo tanto, a las probabilidades logarítmicas de base dadas arriba, las probabilidades logarítmicas para este paciente se obtienen añadiendo

$$ \alpha_\text {80-89}+ \alpha_\text {male}+ \alpha_\text {no Glaucoma}+ \cdots + \alpha_\text {specialist registrar}.$$

Esta es precisamente la cantidad en la que las probabilidades de logaritmo de este paciente varían de la base. Para convertir las probabilidades de logaritmo, deshaga el logaritmo y recuerde que esto convierte la suma en multiplicación. Por lo tanto, las probabilidades de la base deben ser multiplicadas por

$$ \exp ( \alpha_\text {80-89}) \exp ( \alpha_\text {male}) \exp ( \alpha_\text {no Glaucoma}) \cdots \exp ( \alpha_\text {specialist registrar}).$$

Estos son los números que se dan en la tabla bajo "OR ajustado" (odds ratio ajustado). (Se llama "ajustado" porque covariable $x_1, \ldots , x_p$ se incluyeron en el modelo. No juegan ningún papel en ninguno de nuestros cálculos, como verán. Se llama "ratio" porque es precisamente la cantidad por la que las probabilidades base deben ser multiplicadas para producir las probabilidades predichas del paciente: ver el primer párrafo de este post). En orden en la tabla, son $ \exp ( \alpha_\text {80-89})=1.58$ , $ \exp ( \alpha_\text {male})=1.28$ , $ \exp ( \alpha_\text {no Glaucoma})=1.00$ y así sucesivamente. Según el artículo, su producto funciona para $34.5$ . Por lo tanto

$$ \text {Odds(Charlie)} = 34.5 \times \text {Odds(Base)}.$$

(Obsérvese que todas las categorías de base tienen probabilidades de $1.00= \exp (0)$ porque incluyendo $1$ en el producto lo deja sin cambios. Así es como se pueden detectar las categorías de base en la tabla).

Restituyendo los resultados como probabilidades

Finalmente, convirtamos este resultado en probabilidades. Se nos dijo que la línea de base de la probabilidad predicha es $0.736\%=0.00736$ . Por lo tanto, usando las fórmulas que relacionan las probabilidades y probabilidades derivadas al principio, podemos calcular

$$ \text {Odds(Base)} = \frac {0.00736}{1 - 0.00736} = 0.00741.$$

Por consiguiente, las probabilidades de Charlie son

$$ \text {Odds(Charlie)} = 34.5 \times 0.00741 = 0.256.$$

Finalmente, convertir esto de nuevo a probabilidades da

$$ \Pr (Y( \text {Charlie})=1) = 1 - \frac {1}{1 + 0.256} = 0.204.$$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X