3 votos

Asesoramiento sobre el análisis estadístico de datos clínicos mediante estadísticas de resumen, pruebas t, ANOVA y regresión lineal.

Necesito ayuda con el análisis estadístico de un estudio sobre una cirugía concreta para extirpar un cáncer determinado. Estoy utilizando el programa estadístico R para realizar mi análisis. Mis datos se guardan en el objeto study_data .

Datos

# Create reproducible example data
set.seed(50)

study_data <- data.frame(
              Patient_ID = 1:500,
              Institution = sample(c("New York","San Francisco","Houston","Chicago"),500,T),
              Gender = sample(c("Male","Female"),500,T),
              Race = sample(c("White","Black","Hispanic","Asian"),500,T),
              Tumor_grade = sample(c("One","Two","Three","Four"),500,T),
              Pathologic_stage = sample(c("P0","Pa","Pis","P1","P2a","P2b","P3a","P3b","P4a","P4b"),500,T),
              Treatment_arm = sample(c("One","Two","Three","Four"),500,T),
              Surgery_age = round(runif(500,20,100)),
              Nodes_removed = round(runif(500,1,130)))

He aquí el aspecto de los datos:

# Peak at the first six lines of the data
head(study_data)

  Patient_ID   Institution Gender     Race Tumor_grade Pathologic_stage Treatment_arm Surgery_age Nodes_removed
1          1       Houston   Male Hispanic         One              P2b           Two          77           130
2          2 San Francisco Female Hispanic       Three               Pa           Two          38           112
3          3      New York Female    Black        Four               P0          Four          90            90
4          4       Chicago   Male Hispanic         Two              Pis          Four          46             4
5          5       Houston Female    Black        Four              P2a          Four          96           114
6          6      New York   Male    Black       Three              P3b          Four          92             7

Mi interés

Me interesa saber más sobre qué variables están asociadas al número de ganglios linfáticos extirpados durante la cirugía. Mi primera idea fue simplemente estratificar los datos por una variable concreta y luego calcular la mediana del número de ganglios extirpados.

Por ejemplo, para ver si la institución en la que se realizó la cirugía importaba, podría escribir:

cbind(do.call(rbind, by(study_data$Nodes_removed, study_data$Institution, summary)))

              Min. 1st Qu. Median  Mean 3rd Qu. Max.
Chicago          1   25.50   65.5 64.48   98.75  129
Houston          1   40.00   71.0 69.26  100.00  130
New York         4   36.00   67.0 67.96  100.00  129
San Francisco    3   36.75   61.0 65.76   99.00  127

Esto me permite comparar la mediana de nodos eliminados en cada ciudad institucional.

Mi pregunta

Me gustaría examinar a fondo la asociación entre todas mis variables y el resultado Nodes_removed .

  1. ¿Debo limitarme a realizar estas estadísticas resumidas simples para todas mis variables?
  2. ¿Necesito realizar algún tipo de prueba de hipótesis para todas las asociaciones con el fin de saber si las estadísticas de resumen difieren o no? Por ejemplo, ¿debo calcular una mediana y un intervalo de confianza para cada comparación?
  3. ¿O debería utilizar pruebas t para comparar un grupo con otro?
  4. En el caso de una variable multinivel, ¿debo utilizar ANOVA?
  5. ¿Tiene alguna función el análisis de regresión lineal en este caso?
  6. Si quisiera construir un modelo único que incluyera todas las variables predictoras posibles, ¿qué método debería utilizar?

Por ejemplo, digamos que lo que más me interesa es la asociación entre la edad a la que se realizó la cirugía, Surgery_age y Nodes_removed . Sin embargo, me gustaría ajustar esta asociación para posibles factores de confusión como el sexo, la raza, el grado del tumor, el brazo de tratamiento, etc. ¿Cuál es la mejor manera de hacerlo?

¡Gracias por cualquier consejo que me puedan dar!

3voto

Jared Farrish Puntos 120

Abordaré sus preguntas una por una:

  1. Las estadísticas resumidas siempre son útiles, es bueno intentar comprender los datos en lugar de basarse únicamente en pruebas y valores p. Preséntelos, observe los datos, utilice gráficos y piense detenidamente qué significa todo esto.

  2. Lo que usted debe depende de sus objetivos (¿decisión de seguir con el tratamiento? ¿publicación? ¿trabajo de estudiante?) En términos generales, la principal razón para realizar inferencias estadísticas en ensayos clínicos es que estos datos tienen mucho ruido. Por lo tanto, es de esperar que algunas diferencias se produzcan por casualidad y es necesario encontrar la forma de determinar qué puede ser el resultado de la variabilidad del muestreo, cuál puede ser la magnitud del efecto del tratamiento y si es probable que el efecto observado se generalice más allá del estudio. Sin esto, corre el riesgo de sobreinterpretar el patrón de resultados en su muestra particular.

  3. De hecho, todas las técnicas que menciona están estrechamente relacionadas, pero son problemáticas para los datos de recuento. Además, considerar cada variable individualmente puede ser engañoso (especialmente aquellas que obviamente no pueden ser aleatorias como la edad, el sexo, la raza ). Por ejemplo, es perfectamente posible tener una diferencia grande y significativa entre razas como revela un ANOVA unidireccional que desaparece una vez que se considera, digamos, el estadio patológico (por ejemplo, porque algún grupo busca tratamiento más tarde). Detectar e interpretar este tipo de cosas no es trivial.

  4. Ver 3

  5. Ver 3

  6. Este parece el mejor enfoque y, como explica @rbatt, la regresión de Poisson o los modelos lineales generalizados serían una buena opción, pero la creación y comprensión de estos modelos es un área amplia y compleja. Saber qué buscar debería darte un buen punto de partida para encontrar libros sobre el tema o preguntar/leer preguntas más específicas en este sitio, pero no deberías esperar pasar de preguntarte si se puede utilizar una prueba t para comparar grupos a analizar de forma competente un ensayo clínico complejo en unas pocas horas. Si su principal objetivo es obtener resultados lo antes posible en lugar de aprender, la única solución razonable es pedir consejo a un investigador con más experiencia o, mejor aún, a un estadístico (ya sea contratando a un consultor o comprobando si su empresa ya cuenta con estadísticos en plantilla).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X