7 votos

Análisis de un experimento de medidas repetidas con múltiples grupos de tratamiento y múltiples medidas

Estoy realizando un estudio para evaluar el efecto de dos suplementos dietéticos en la composición corporal.

La literatura sugiere que el tratamiento 1 (suplemento dietético 1) afecta a la composición corporal con algunos efectos secundarios en algunos perfiles sanguíneos. Nos gustaría saber si el Tratamiento 2 (Suplemento dietético 2) tiene el mismo efecto (o incluso mejor) en la composición corporal que el Tratamiento 1, al tiempo que no tiene esos efectos adversos en los perfiles sanguíneos .

Este es el resumen del conjunto de datos:

  • Número total de sujetos: 171

  • Número total de grupos: 3

    • Control, 56 sujetos

    • Tratamiento 1, 58 sujetos

    • Tratamiento 2, 57 sujetos

  • Hay 12 medidas repetidas (cada una hecha 3 veces), por lo que hay 36 columnas en total. Las medidas incluyen el peso corporal, el índice de masa corporal, la masa de grasa corporal y un grupo de perfiles sanguíneos como HDL, LDL, etc. Por lo tanto, algunas medidas están relacionadas (peso corporal e IMC) mientras que otras no lo están. Parece (véase más abajo) que algunas medidas siguen una distribución gaussiana y otras no.

  • Todas estas mediciones se realizaron 3 veces durante el estudio.

Suponiendo que A es el peso corporal. El peso corporal se mide en tres momentos durante el estudio. Por lo tanto, tengo tres medidas de peso corporal A1, A2 y A3 para todos los grupos (Control, Tratamiento 1, Tratamiento 2). Así, el conjunto de datos de la muestra tiene el siguiente aspecto (cada fila representa un sujeto):

Thus, the sample data-set looks like

Estos son los problemas:

  1. Para prueba dentro del grupo He descubierto que debo utilizar el ANOVA de medidas repetidas con la corrección de Bonferroni como prueba post-hoc para las medidas gaussianas y la prueba de Friedman con el rango con signo de Wilcoxon (para cada par) como prueba post-hoc para las medidas no gaussianas. ¿Son estas elecciones correctas (especialmente las post-hoc)?

  2. Para entre grupos ¿debo utilizar el ANOVA de una vía con la corrección de Bonferroni como prueba post-hoc para las medidas gaussianas, y Kruskal-Wallis con la prueba de Dunn como post-hoc para las medidas no gaussianas?

  3. Para este conjunto de datos, ¿cuál es el resultado de análisis post-hoc de los efectos entre grupos significa exactamente? Por ejemplo, si B3 es significativamente diferente entre los grupos, ¿muestra el post-hoc qué B3 del grupo es significativamente diferente de qué otro grupo?

  4. Si quiero informar de todos los efectos dentro y entre grupos para cada medición, junto con los resultados post-hoc, ¡sería mucho! ¿Algún consejo sobre la presentación de informes de análisis sobre estos conjuntos de datos?

Pruebas de normalidad

Utilicé la prueba de Shapiro-Wilk en R para comprobar la normalidad de cada medida para cada grupo. Aquí están los histogramas para B1 en dos grupos (como ejemplo de datos no normales):

enter image description here

enter image description here

ACTUALIZACIÓN:

  • No estamos 100% seguros de que el Tratamiento 1 sea efectivo (hay cierta controversia en la literatura sobre su efectividad), por lo que incluimos el grupo de Control para ver si el Tratamiento 1 es incluso efectivo, y luego lo comparamos con el Tratamiento 2.

  • En cuanto a los puntos de tiempo, hay tres (al principio, después de 6 semanas y 12 semanas). Se trata de ver la rapidez o lentitud de los efectos de ambos tratamientos, comparados entre sí y también con el placebo.

  • Aunque las mediciones de la composición corporal parezcan depender, no siempre es así. Una persona puede perder peso sin que su BFM cambie en absoluto, o puede ser únicamente por el cambio de BFM.

7voto

zowens Puntos 1417

Creo que se podría escribir un libro entero sobre el tema exclusivamente con su pregunta (y definitivamente no estoy calificado para escribirla). Así que, sin intentar dar una respuesta exhaustiva, he aquí algunos puntos que espero que puedan ser útiles.

Enfoque confirmatorio vs. exploratorio del análisis

Como usted mismo señala, tiene un conjunto de datos muy rico y puede probar muchas cosas . Podemos calcular rápidamente el número de pruebas significativas: tiene $12$ medidas; cada una se midió $3$ veces en $3$ grupos. Así que si contamos todas las pruebas por pares, será $3$ pruebas por grupo y $3$ pruebas por tiempo de medición, es decir $18$ pruebas por medida, es decir $216$ pruebas. Obviamente, usted conoce el problema de las comparaciones múltiples (recuerde el judías verdes cómico?), pero si normalmente está contento de usar $\alpha=0.05$ y se utilizara, por ejemplo, el ajuste de Bonferroni, habría que utilizar $\alpha = 0.05/216\approx 0.002$ y arriesgarse a no encontrar ningún efecto significativo por no tener suficiente potencia.

Por supuesto, no es una situación única, sino muy común.

En términos generales, puede adoptar uno de los dos enfoques.

Enfoque confirmatorio insiste en el cumplimiento estricto de las reglas de la prueba de significación. Debe formular una o varias hipótesis de investigación (pero tan pocas como sea posible) por adelantado y planificar cuidadosamente las pruebas estadísticas que va a realizar. Para mitigar el problema de las comparaciones múltiples y la baja potencia, debe intentar diseñar sus pruebas de forma que utilice el menor número posible de ellas y tenga la máxima potencia para detectar lo que realmente quiere detectar. Por ejemplo, podría combinar sus medidas en algunas medidas compuestas o agrupadas que probablemente se vean más afectadas por el Tratamiento 1 o 2. O puede hacer un pool sobre los tiempos de medición. etc. En cualquier caso, se intenta reducir todos los datos a un par de crucial comparaciones, y entonces se hace sólo eso, aplicando el ajuste de Bonferroni (o similar). Es importante que todo eso se planifique antes de haber mirado los datos (porque después de mirarlos tendrás la tentación de cambiar tus pruebas).

Por desgracia, en la práctica, esto apenas es posible.

Enfoque exploratorio, por el contrario, es como morder la bala: tienes un montón de datos ricos, así que por qué no explorar todo tipo de relaciones que están presentes allí. Harás muchas comparaciones y muchas pruebas, ajustarás tu estrategia de análisis en función de lo que veas en los datos, pero da igual, todo esto es exploratorio. No se puede hacer esto si se está haciendo un ensayo clínico, pero en la investigación básica a menudo es la única manera de hacerlo. Todos los $p$ -Sin embargo, los valores que se obtienen de este enfoque deben tomarse con un (gran) grano de sal. De hecho, algunos dirían que no hay que hacer ni informar de ninguna prueba de significación, pero normalmente se siguen haciendo pruebas. Hay un buen argumento para no utilizar ajustes de comparaciones múltiples (como Bonferroni) y tratar todos los $p$ -Los valores de las pruebas indican la fuerza de la evidencia en el sentido de Fisher (en lugar de conducir a una decisión de sí/no en el sentido de Neyman-Pearson).

Pruebas estadísticas si está dispuesto a asumir la normalidad

Ignoremos por el momento la cuestión de la normalidad (véase más adelante) y supongamos que todo es normal. Tiene la siguiente batería de pruebas:

  1. Para cada medida, la comparación por pares dentro del grupo entre dos momentos de medición es una prueba t pareada . Comprobará si las mediciones difieren entre estos dos momentos.
  2. Para cada medida, la comparación por pares entre grupos para un tiempo de medición es un prueba t no apareada . Se comprobará si estos dos grupos difieren en esta medida específica.
  3. Para cada medida, la comparación dentro del grupo entre los tres tiempos de medición diferentes es un ANOVA de medidas repetidas . Comprobará si el tiempo de medición tiene algún efecto.
  4. Para cada medida, la comparación entre grupos para un tiempo de medición fijo, es una ANOVA unidireccional . Comprobará si los grupos difieren de alguna manera entre sí.
  5. Para cada medida, la comparación entre todos los grupos y todos los tiempos es un ANOVA de medidas repetidas de dos vías . Se comprobará si existe un efecto significativo del grupo, un efecto significativo del tiempo y una interacción significativa entre ellos.
  6. Para todas las medidas, la comparación entre todos los grupos y todos los tiempos es un MANOVA de medidas repetidas de dos vías . Comprobará si existe un efecto significativo del grupo, un efecto significativo del tiempo o una interacción significativa entre ellos en todas las medidas tomadas en conjunto.

Nótese que #1 y #2 pueden verse como post-hocs a #3 y #4 respectivamente, #3 y #4 pueden verse como post-hocs a #5, y #5 puede verse como post-hoc a #6.

Con una complicación adicional, cuando estas pruebas se realizan como post-hoc, utilizan algunas de las estimaciones agrupadas de la prueba "madre" para ser más coherentes con ella; sin embargo, no estoy seguro de que estos procedimientos existan en los niveles superiores de la jerarquía].

Así que tiene una estructura en capas y puede proceder de manera descendente desde el nivel más general (#6) hasta las pruebas más específicas (#1 y #2) y ejecutar cada nivel siguiente sólo si tiene ómnibus efecto en el nivel superior (disculpas por la posible confusión; los niveles "superiores" tienen números más altos en mi lista y, por tanto, se encuentran en la parte inferior de la misma... "de arriba abajo" significa empezar con el MANOVA en el #6 e ir hasta las pruebas t en el #1 y #2). Esto debería protegerle de los falsos positivos en el nivel inferior y, por tanto, podría decirse que no necesita hacer ajustes de comparación múltiple en el nivel inferior (pero, según tengo entendido, las opiniones al respecto difieren).

También se puede empezar directamente en alguna capa intermedia y, por ejemplo, ejecutar 12 veces la #5 sin hacer la #6, o 36 veces la #3 y 36 veces la #4 sin hacer la #5. En el marco confirmatorio, debe aplicar entonces alguna corrección de comparación múltiple (como Bonferroni o más bien Holm-Bonferroni). En el marco exploratorio esto no es necesario, véase más arriba (ejemplo: tal vez sin ajuste se obtiene $p=0.01$ efecto en muchas medidas diferentes y es muy consistente; probablemente estés ante un efecto real entonces, pero si haces el ajuste de Bonferroni entonces todo dejará de ser significativo una pena. En cambio, en el marco exploratorio debería mantener $p=0.01$ tal cual y utilice su propio criterio de experto, pero, por supuesto, bajo su propia responsabilidad).

Por cierto, si sus Tratamientos funcionan en absoluto, debería esperar un efecto significativo de la interacción en el #6 y el #5, por lo que estos están (¡esperemos!) casi garantizados, y lo interesante comienza en los estratos #3 y #4. Si existe un peligro real de que ambos Tratamientos sean tan malos como el placebo, entonces tal vez debería comenzar con el #6.

Otra observación: un enfoque más "moderno" sería utilizar un modelo lineal mixto (con los sujetos como efecto aleatorio) en lugar de un ANOVA de medidas repetidas, pero ese es un tema totalmente distinto con el que no estoy muy familiarizado. Sería estupendo que alguien publicara aquí una respuesta escrita desde la perspectiva de los modelos mixtos.

Pruebas estadísticas si no está dispuesto a asumir la normalidad

Existen análogos clasificados de la mayoría de estas pruebas, pero no de todas. Los análogos son los siguientes:

  1. Prueba de Wilcoxon
  2. Prueba de Mann-Whitney-Wilcoxon
  3. Prueba de Friedman
  4. Prueba de Kruskal-Wallis
  5. ?? (probablemente no existe)
  6. ???? (lo más probable es que no exista, pero véase aquí )

La complicación adicional es que los post-hocs se vuelven complicados. El post-hoc adecuado para Kruskal-Wallis no es Mann-Whitney-Wilcoxon, sino la prueba de Dunn [que tiene en cuenta la cuestión que mencioné en los corchetes anteriores]. Del mismo modo, el post-hoc adecuado para Friedman no es Wilcoxon; no estoy seguro de que exista, pero si existe es aún más oscuro que el de Dunn.

Pruebas de normalidad

En general, es una muy mala idea comprobar la normalidad para decidir si se deben utilizar pruebas paramétricas o no paramétricas. Afectará a su $p$ -valores de forma imprevisible. Al menos en el paradigma confirmatorio, se debe decidir sobre la prueba antes de mirar los datos Si tiene dudas sobre la aproximación de la normalidad, entonces no la utilice. Vea aquí para más discusión: Elegir una prueba estadística en función del resultado de otra (por ejemplo, la normalidad) .

En su caso, esto significa que debe utilizar sólo pruebas paramétricas o sólo pruebas no paramétricas para todas las medidas (a menos que tenga a priori motivos para sospechar de desviaciones sustanciales de la normalidad sólo en un subconjunto específico de medidas; éste no parece ser el caso).

En casos sencillos, la gente suele sugerir el uso de pruebas clasificadas porque son potentes, sencillas y no hay que preocuparse por los supuestos. Pero en tu caso, las pruebas no paramétricas serán un lío, así que tienes un buen argumento a favor de los ANOVAs clásicos. Por cierto, los histogramas que has colgado me parecen lo suficientemente "normales" como para que con el tamaño de tu muestra no debas preocuparte demasiado de que no sean normales.

Presentación de datos

Aconsejaría encarecidamente basarse en la visualización en lugar de limitarse a enumerar cientos de $p$ -valores en un texto o una tabla. Con los datos así, lo primero que haría (nota: ¡esto es muy exploratorio!), sería hacer una figura gigante con 12 subplots, donde cada subplot corresponde a una medida y muestra el tiempo en el eje x (tres medidas) y los grupos como líneas de diferente color (con barras de error).

Entonces mira fijamente esta figura durante mucho tiempo e intenta ver si tiene sentido. Esperemos que los efectos sean consistentes entre las medidas, entre los puntos de tiempo, etc. Yo haría de esta figura la figura principal del artículo.

Si quieres, puedes salpicar esta figura con los resultados de tus pruebas estadísticas (marca las diferencias significativas con estrellas).


Breves respuestas a sus preguntas específicas

  1. Sí (casi - ver la advertencia sobre Wilcoxon como post-hoc)
  2. Utiliza las cifras todo lo que puedas.

Advertencia

Nos gustaría saber si el Tratamiento 2 (Suplemento dietético 2) tiene el mismo efecto (o incluso mejor) en la composición corporal que el Tratamiento 1, al tiempo que no tiene esos efectos adversos en los perfiles sanguíneos.

Para demostrar que el Tratamiento 2 no tiene tantos efectos adversos como el Tratamiento 1, no basta con mostrar que hay una diferencia significativa entre el T1 y los Controles, pero ninguna diferencia significativa entre el T2 y los Controles. Este es un error común. En realidad, hay que mostrar una diferencia significativa entre el T2 y el T1.


Más información:

3voto

BillyJean Puntos 118

Es una cebolla metodológica de varias capas que hay que pelar. Sólo podré ocuparme de las capas superiores, tanto por falta de tiempo como por falta de conocimientos. Basaré esta respuesta en la declaración muy clara de los objetivos del análisis: en negrita en el PO:

Nos gustaría saber si el Tratamiento 2 (Suplemento dietético 2) tiene el mismo efecto (o incluso mejor) en la composición corporal que el Tratamiento 1 mientras que no tiene esos efectos adversos en los perfiles sanguíneos.

1) No es necesario el grupo de control - se quieren comparar dos grupos Tratamiento1 y Tratamiento2 - esto es bueno porque se pueden hacer pruebas de 2 grupos sin comparaciones múltiples - (al menos en principio) en lugar de pruebas de grupos múltiples _ pruebas post hoc

2) Supongamos que se tiene una única medida de composición corporal, digamos B. Se quiere demostrar que T2 (tratamiento 2) es al menos tan bueno como T1 en la medida B.

Un gran problema aquí. Todas las pruebas que has mencionado son pruebas para demostrar que un grupo de medidas es diferentes que otro, no para demostrar que es al menos tan bueno . Sí, puede utilizar una prueba estándar de 2 grupos (digamos la prueba t - olvídese por un momento de los datos gaussianos y no gaussianos) y demostrar que las medidas B de T2 son significativamente diferentes (y mejores) que las de T1. Si tiene suerte y consigue la diferencia significativa, podrá demostrar que T2 es mejor que T1 y, por tanto, al menos tan bueno. Pero si no se tiene suerte, entonces qué se obtiene: el hecho de que el valor p sea alto no indica que los dos conjuntos de medidas sean iguales (y, por tanto, que el T2 sea al menos tan bueno como el T1), sino que indica que no se tienen suficientes datos para demostrar que hay una diferencia.

Así que lo que se necesita para la medida B es una prueba de no inferioridad (o una prueba de equivalencia). No voy a entrar en ello: hay muchas respuestas en el CV sobre las pruebas de equivalencia. Pero mi punto 1 anterior es importante porque las pruebas de no inferioridad que conozco (TOST, por ejemplo) sólo funcionan con dos grupos.

3) Supongamos que sólo tienes una medida de sangre (C). Quiere demostrar que el T2 es mejor que el T1 en la medida C, y aquí las pruebas estándar -las que muestran las diferencias- son la herramienta adecuada. Demuestra que la diferencia en la medida C de T1 y T2 es significativamente diferente (y que T2 es mejor) y, por tanto, que T2 es significativamente mejor en el perfil sanguíneo.

4) Otro problema es que no tienes una única medida de B (y C) para cada sujeto. Tienes 3 mediciones en 3 momentos diferentes

No sé qué hacer con las 3 mediciones por sujeto. Tenga en cuenta que esto no es un dentro de los sujetos que importa a la pregunta de investigación - las 3 mediciones están en el mismo sujeto, pero estamos comparando el conjunto de sujetos en T1 y T2, y los sujetos en T1 y T2 no están emparejados o el mismo.

I adivinar que trataría las 3 mediciones cronometradas como 3 mediciones independientes para obtener una mejor estimación del verdadero valor de B (y C) para cada sujeto. Por lo tanto, promediaría las tres mediciones cronometradas en una sola. (Entiendo que se perdería la información sobre la variabilidad al promediar los datos, pero no me queda claro dónde sería útil esta información sobre la variabilidad de las mediciones de B para la pregunta de investigación).

4) El siguiente problema es que no existe una única medida B para la composición corporal, sino que hay muchas medidas diferentes, como el peso corporal, el índice de masa corporal o la masa grasa corporal, que probablemente estén correlacionadas.) Llamémoslas Ba, Bb, Bc, etc. (Obsérvese que no se trata de las 3 mediciones en el tiempo para cada sujeto de las que se ha hablado anteriormente, son medidas diferentes - he utilizado medidas en el punto anterior, y mide aquí)

Puede ejecutar el procedimiento descrito hasta ahora (hasta el punto 3 anterior) para cada medida corporal (promediar las 3 medidas por sujeto, realizar una prueba de no inferioticidad en los dos conjuntos de datos) en cada medida Ba Bb Bc, e informar de los resultados. Lo mismo para todas las medidas de sangre Ca y Cb, y así sucesivamente. Pero entonces usted está haciendo un montón de comparaciones y pruebas. En este ejemplo habría 5 resultados de pruebas (Ba Bb Bc Ca y Cb). Por lo tanto, ¡también debería tener un procedimiento de comparación múltiple para ajustar los valores p! (Esto es muy poco común - la gente no suele hacer el ajuste de los valores p para diferentes pruebas - sólo para una sola prueba de grupos múltiples - pero deberían hacerlo).

Por otra parte, las medidas Ba Bb y Bc están muy correlacionadas, por lo que los resultados de las pruebas no son independientes, y no sé cómo hacer el ajuste del valor p (Obsérvese que la corrección de Bonferroni supone que cada una de las pruebas es independiente, exactamente lo contrario de la situación aquí).


Dejaré la respuesta en este momento. Espero que los colaboradores de CV con más conocimientos puedan dar mejores respuestas, especialmente a los puntos 3 y 4 anteriores, que están al límite de mis conocimientos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X