2 votos

Regresión logística binaria multivariante con múltiples variables binarias independientes

Estoy tratando de predecir una respuesta binaria basada en múltiples variables independientes binarias, algunos datos categóricos y algunos datos continuos. Mi conjunto de datos es similar a:

Y B1 B2 B3 B4 B5 B6 Ca1 Ca2 Co1 Co2
1  0  1 0  1  0   0  A   A  1.5 1.7
0  1  1 0  0  0   0  B   C  2.3 1.1
...

Por desgracia, mi n es sólo 119 . De estos, y=1 sólo en 4 observaciones. Asumo que, por tanto, no tengo la potencia suficiente para detectar nada significativo.

Mi objetivo final es tratar de construir un modelo mediante el cual pueda asignar un peso a cada variable para crear un punto de corte en el que una probabilidad del 80% de y=1 existe. Así, por ejemplo, B1 se le asignan 5 puntos, B2 se le asigna 1 punto, y así sucesivamente. Entonces, cuando se suman, si points > 15 entonces probablity > 80% que y = 1 . Esto no es diferente a la Norma canadiense sobre el TAC de la cabeza .

¿Cuál es la metodología estadística adecuada para llevar a cabo este tipo de tarea?

2voto

Isabella Ghement Puntos 9964

¿La metodología descrita en este documento ¿describe lo que te interesa, Dylan?

En caso afirmativo, se trata de construir un modelo de regresión logística binaria de la forma

log(odds that y = 1) = beta0 + beta1*B1 + beta2*B2 + ... + beta10*Co2

Las ponderaciones que le interesan pueden estimarse a partir de los datos y son los valores estimados de los coeficientes beta en la ecuación anterior:

b0, b1, b2, ..., b10. 

El artículo menciona que estos valores estimados podrían redondearse para facilitar su uso por parte de los médicos, aunque ese redondeo debería hacerse con cuidado y utilizarse con precaución. Lo mejor es utilizar los valores estimados reales como entrada para una aplicación basada en la web, por ejemplo. Esta aplicación estimaría la probabilidad p de que y = 1 dados los valores de los predictores utilizando una ecuación de la forma:

p = exp(lp)/(1 + exp(lp)) 

donde lp (es decir, predictor lineal) es igual a:

lp = b0 + b1*B1 + b2*B2 + ... + b10*Co2.

El reto en su caso es que y = 1 es un evento raro, por lo que tiene que ajustar el modelo de regresión logística binaria de una manera que tenga en cuenta esto. Existen múltiples modalidades para conseguirlo. Véase, por ejemplo, aquí .

En la práctica, una vez que se puede estimar el modelo, si se selecciona un paciente al azar de la población objetivo y se conocen los valores de B1, B2, ..., Co2 de ese paciente, se pueden introducir en las dos ecuaciones anteriores para estimar p (expresada como proporción). Si p > 0,8 (o el 80%, un valor de corte a priori), puede clasificar a ese paciente con y = 1; en caso contrario, puede clasificar a ese paciente con y = 0. La población objetivo es la población de pacientes representada por los incluidos en su modelo.

El artículo al que he enlazado habla de la necesidad de evaluar el rendimiento de su modelo y también de realizar una validación interna del modelo utilizando quizás el bootstrapping. Por supuesto, puede utilizar la selección de modelos para decidir qué variables predictoras deben incluirse en el modelo final si no todas las variables predictoras son clínicamente importantes y/o la situación de eventos raros puede obstaculizar sus esfuerzos para ajustar un modelo completo.

Espero haberle proporcionado suficiente material de reflexión para que pueda determinar cuál debe ser su próximo paso. Por cierto, yo también soy aficionado al Manchester United y estoy deseando ver el partido del West Ham mañana. ⚽️

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X