Necesito ayuda con el análisis estadístico de un estudio sobre una cirugía concreta para extirpar un cáncer determinado. Estoy utilizando el programa estadístico R para realizar mi análisis. Mis datos se guardan en el objeto study_data
.
Datos
# Create reproducible example data
set.seed(50)
study_data <- data.frame(
Patient_ID = 1:500,
Institution = sample(c("New York","San Francisco","Houston","Chicago"),500,T),
Gender = sample(c("Male","Female"),500,T),
Race = sample(c("White","Black","Hispanic","Asian"),500,T),
Tumor_grade = sample(c("One","Two","Three","Four"),500,T),
Pathologic_stage = sample(c("P0","Pa","Pis","P1","P2a","P2b","P3a","P3b","P4a","P4b"),500,T),
Treatment_arm = sample(c("One","Two","Three","Four"),500,T),
Surgery_age = round(runif(500,20,100)),
Nodes_removed = round(runif(500,1,130)))
He aquí el aspecto de los datos:
# Peak at the first six lines of the data
head(study_data)
Patient_ID Institution Gender Race Tumor_grade Pathologic_stage Treatment_arm Surgery_age Nodes_removed
1 1 Houston Male Hispanic One P2b Two 77 130
2 2 San Francisco Female Hispanic Three Pa Two 38 112
3 3 New York Female Black Four P0 Four 90 90
4 4 Chicago Male Hispanic Two Pis Four 46 4
5 5 Houston Female Black Four P2a Four 96 114
6 6 New York Male Black Three P3b Four 92 7
Mi interés
Me interesa saber más sobre qué variables están asociadas al número de ganglios linfáticos extirpados durante la cirugía. Mi primera idea fue simplemente estratificar los datos por una variable concreta y luego calcular la mediana del número de ganglios extirpados.
Por ejemplo, para ver si la institución en la que se realizó la cirugía importaba, podría escribir:
cbind(do.call(rbind, by(study_data$Nodes_removed, study_data$Institution, summary)))
Min. 1st Qu. Median Mean 3rd Qu. Max.
Chicago 1 25.50 65.5 64.48 98.75 129
Houston 1 40.00 71.0 69.26 100.00 130
New York 4 36.00 67.0 67.96 100.00 129
San Francisco 3 36.75 61.0 65.76 99.00 127
Esto me permite comparar la mediana de nodos eliminados en cada ciudad institucional.
Mi pregunta
Me gustaría examinar a fondo la asociación entre todas mis variables y el resultado Nodes_removed
.
- ¿Debo limitarme a realizar estas estadísticas resumidas simples para todas mis variables?
- ¿Necesito realizar algún tipo de prueba de hipótesis para todas las asociaciones con el fin de saber si las estadísticas de resumen difieren o no? Por ejemplo, ¿debo calcular una mediana y un intervalo de confianza para cada comparación?
- ¿O debería utilizar pruebas t para comparar un grupo con otro?
- En el caso de una variable multinivel, ¿debo utilizar ANOVA?
- ¿Tiene alguna función el análisis de regresión lineal en este caso?
- Si quisiera construir un modelo único que incluyera todas las variables predictoras posibles, ¿qué método debería utilizar?
Por ejemplo, digamos que lo que más me interesa es la asociación entre la edad a la que se realizó la cirugía, Surgery_age
y Nodes_removed
. Sin embargo, me gustaría ajustar esta asociación para posibles factores de confusión como el sexo, la raza, el grado del tumor, el brazo de tratamiento, etc. ¿Cuál es la mejor manera de hacerlo?
¡Gracias por cualquier consejo que me puedan dar!