Creo que se podría escribir un libro entero sobre el tema exclusivamente con su pregunta (y definitivamente no estoy calificado para escribirla). Así que, sin intentar dar una respuesta exhaustiva, he aquí algunos puntos que espero que puedan ser útiles.
Enfoque confirmatorio vs. exploratorio del análisis
Como usted mismo señala, tiene un conjunto de datos muy rico y puede probar muchas cosas . Podemos calcular rápidamente el número de pruebas significativas: tiene $12$ medidas; cada una se midió $3$ veces en $3$ grupos. Así que si contamos todas las pruebas por pares, será $3$ pruebas por grupo y $3$ pruebas por tiempo de medición, es decir $18$ pruebas por medida, es decir $216$ pruebas. Obviamente, usted conoce el problema de las comparaciones múltiples (recuerde el judías verdes cómico?), pero si normalmente está contento de usar $\alpha=0.05$ y se utilizara, por ejemplo, el ajuste de Bonferroni, habría que utilizar $\alpha = 0.05/216\approx 0.002$ y arriesgarse a no encontrar ningún efecto significativo por no tener suficiente potencia.
Por supuesto, no es una situación única, sino muy común.
En términos generales, puede adoptar uno de los dos enfoques.
Enfoque confirmatorio insiste en el cumplimiento estricto de las reglas de la prueba de significación. Debe formular una o varias hipótesis de investigación (pero tan pocas como sea posible) por adelantado y planificar cuidadosamente las pruebas estadísticas que va a realizar. Para mitigar el problema de las comparaciones múltiples y la baja potencia, debe intentar diseñar sus pruebas de forma que utilice el menor número posible de ellas y tenga la máxima potencia para detectar lo que realmente quiere detectar. Por ejemplo, podría combinar sus medidas en algunas medidas compuestas o agrupadas que probablemente se vean más afectadas por el Tratamiento 1 o 2. O puede hacer un pool sobre los tiempos de medición. etc. En cualquier caso, se intenta reducir todos los datos a un par de crucial comparaciones, y entonces se hace sólo eso, aplicando el ajuste de Bonferroni (o similar). Es importante que todo eso se planifique antes de haber mirado los datos (porque después de mirarlos tendrás la tentación de cambiar tus pruebas).
Por desgracia, en la práctica, esto apenas es posible.
Enfoque exploratorio, por el contrario, es como morder la bala: tienes un montón de datos ricos, así que por qué no explorar todo tipo de relaciones que están presentes allí. Harás muchas comparaciones y muchas pruebas, ajustarás tu estrategia de análisis en función de lo que veas en los datos, pero da igual, todo esto es exploratorio. No se puede hacer esto si se está haciendo un ensayo clínico, pero en la investigación básica a menudo es la única manera de hacerlo. Todos los $p$ -Sin embargo, los valores que se obtienen de este enfoque deben tomarse con un (gran) grano de sal. De hecho, algunos dirían que no hay que hacer ni informar de ninguna prueba de significación, pero normalmente se siguen haciendo pruebas. Hay un buen argumento para no utilizar ajustes de comparaciones múltiples (como Bonferroni) y tratar todos los $p$ -Los valores de las pruebas indican la fuerza de la evidencia en el sentido de Fisher (en lugar de conducir a una decisión de sí/no en el sentido de Neyman-Pearson).
Pruebas estadísticas si está dispuesto a asumir la normalidad
Ignoremos por el momento la cuestión de la normalidad (véase más adelante) y supongamos que todo es normal. Tiene la siguiente batería de pruebas:
- Para cada medida, la comparación por pares dentro del grupo entre dos momentos de medición es una prueba t pareada . Comprobará si las mediciones difieren entre estos dos momentos.
- Para cada medida, la comparación por pares entre grupos para un tiempo de medición es un prueba t no apareada . Se comprobará si estos dos grupos difieren en esta medida específica.
- Para cada medida, la comparación dentro del grupo entre los tres tiempos de medición diferentes es un ANOVA de medidas repetidas . Comprobará si el tiempo de medición tiene algún efecto.
- Para cada medida, la comparación entre grupos para un tiempo de medición fijo, es una ANOVA unidireccional . Comprobará si los grupos difieren de alguna manera entre sí.
- Para cada medida, la comparación entre todos los grupos y todos los tiempos es un ANOVA de medidas repetidas de dos vías . Se comprobará si existe un efecto significativo del grupo, un efecto significativo del tiempo y una interacción significativa entre ellos.
- Para todas las medidas, la comparación entre todos los grupos y todos los tiempos es un MANOVA de medidas repetidas de dos vías . Comprobará si existe un efecto significativo del grupo, un efecto significativo del tiempo o una interacción significativa entre ellos en todas las medidas tomadas en conjunto.
Nótese que #1 y #2 pueden verse como post-hocs a #3 y #4 respectivamente, #3 y #4 pueden verse como post-hocs a #5, y #5 puede verse como post-hoc a #6.
Con una complicación adicional, cuando estas pruebas se realizan como post-hoc, utilizan algunas de las estimaciones agrupadas de la prueba "madre" para ser más coherentes con ella; sin embargo, no estoy seguro de que estos procedimientos existan en los niveles superiores de la jerarquía].
Así que tiene una estructura en capas y puede proceder de manera descendente desde el nivel más general (#6) hasta las pruebas más específicas (#1 y #2) y ejecutar cada nivel siguiente sólo si tiene ómnibus efecto en el nivel superior (disculpas por la posible confusión; los niveles "superiores" tienen números más altos en mi lista y, por tanto, se encuentran en la parte inferior de la misma... "de arriba abajo" significa empezar con el MANOVA en el #6 e ir hasta las pruebas t en el #1 y #2). Esto debería protegerle de los falsos positivos en el nivel inferior y, por tanto, podría decirse que no necesita hacer ajustes de comparación múltiple en el nivel inferior (pero, según tengo entendido, las opiniones al respecto difieren).
También se puede empezar directamente en alguna capa intermedia y, por ejemplo, ejecutar 12 veces la #5 sin hacer la #6, o 36 veces la #3 y 36 veces la #4 sin hacer la #5. En el marco confirmatorio, debe aplicar entonces alguna corrección de comparación múltiple (como Bonferroni o más bien Holm-Bonferroni). En el marco exploratorio esto no es necesario, véase más arriba (ejemplo: tal vez sin ajuste se obtiene $p=0.01$ efecto en muchas medidas diferentes y es muy consistente; probablemente estés ante un efecto real entonces, pero si haces el ajuste de Bonferroni entonces todo dejará de ser significativo una pena. En cambio, en el marco exploratorio debería mantener $p=0.01$ tal cual y utilice su propio criterio de experto, pero, por supuesto, bajo su propia responsabilidad).
Por cierto, si sus Tratamientos funcionan en absoluto, debería esperar un efecto significativo de la interacción en el #6 y el #5, por lo que estos están (¡esperemos!) casi garantizados, y lo interesante comienza en los estratos #3 y #4. Si existe un peligro real de que ambos Tratamientos sean tan malos como el placebo, entonces tal vez debería comenzar con el #6.
Otra observación: un enfoque más "moderno" sería utilizar un modelo lineal mixto (con los sujetos como efecto aleatorio) en lugar de un ANOVA de medidas repetidas, pero ese es un tema totalmente distinto con el que no estoy muy familiarizado. Sería estupendo que alguien publicara aquí una respuesta escrita desde la perspectiva de los modelos mixtos.
Pruebas estadísticas si no está dispuesto a asumir la normalidad
Existen análogos clasificados de la mayoría de estas pruebas, pero no de todas. Los análogos son los siguientes:
- Prueba de Wilcoxon
- Prueba de Mann-Whitney-Wilcoxon
- Prueba de Friedman
- Prueba de Kruskal-Wallis
- ?? (probablemente no existe)
- ???? (lo más probable es que no exista, pero véase aquí )
La complicación adicional es que los post-hocs se vuelven complicados. El post-hoc adecuado para Kruskal-Wallis no es Mann-Whitney-Wilcoxon, sino la prueba de Dunn [que tiene en cuenta la cuestión que mencioné en los corchetes anteriores]. Del mismo modo, el post-hoc adecuado para Friedman no es Wilcoxon; no estoy seguro de que exista, pero si existe es aún más oscuro que el de Dunn.
Pruebas de normalidad
En general, es una muy mala idea comprobar la normalidad para decidir si se deben utilizar pruebas paramétricas o no paramétricas. Afectará a su $p$ -valores de forma imprevisible. Al menos en el paradigma confirmatorio, se debe decidir sobre la prueba antes de mirar los datos Si tiene dudas sobre la aproximación de la normalidad, entonces no la utilice. Vea aquí para más discusión: Elegir una prueba estadística en función del resultado de otra (por ejemplo, la normalidad) .
En su caso, esto significa que debe utilizar sólo pruebas paramétricas o sólo pruebas no paramétricas para todas las medidas (a menos que tenga a priori motivos para sospechar de desviaciones sustanciales de la normalidad sólo en un subconjunto específico de medidas; éste no parece ser el caso).
En casos sencillos, la gente suele sugerir el uso de pruebas clasificadas porque son potentes, sencillas y no hay que preocuparse por los supuestos. Pero en tu caso, las pruebas no paramétricas serán un lío, así que tienes un buen argumento a favor de los ANOVAs clásicos. Por cierto, los histogramas que has colgado me parecen lo suficientemente "normales" como para que con el tamaño de tu muestra no debas preocuparte demasiado de que no sean normales.
Presentación de datos
Aconsejaría encarecidamente basarse en la visualización en lugar de limitarse a enumerar cientos de $p$ -valores en un texto o una tabla. Con los datos así, lo primero que haría (nota: ¡esto es muy exploratorio!), sería hacer una figura gigante con 12 subplots, donde cada subplot corresponde a una medida y muestra el tiempo en el eje x (tres medidas) y los grupos como líneas de diferente color (con barras de error).
Entonces mira fijamente esta figura durante mucho tiempo e intenta ver si tiene sentido. Esperemos que los efectos sean consistentes entre las medidas, entre los puntos de tiempo, etc. Yo haría de esta figura la figura principal del artículo.
Si quieres, puedes salpicar esta figura con los resultados de tus pruebas estadísticas (marca las diferencias significativas con estrellas).
Breves respuestas a sus preguntas específicas
- Sí (casi - ver la advertencia sobre Wilcoxon como post-hoc)
- Sí
- Sí
- Utiliza las cifras todo lo que puedas.
Advertencia
Nos gustaría saber si el Tratamiento 2 (Suplemento dietético 2) tiene el mismo efecto (o incluso mejor) en la composición corporal que el Tratamiento 1, al tiempo que no tiene esos efectos adversos en los perfiles sanguíneos.
Para demostrar que el Tratamiento 2 no tiene tantos efectos adversos como el Tratamiento 1, no basta con mostrar que hay una diferencia significativa entre el T1 y los Controles, pero ninguna diferencia significativa entre el T2 y los Controles. Este es un error común. En realidad, hay que mostrar una diferencia significativa entre el T2 y el T1.
Más información: