Un colega ha desarrollado un tratamiento para "prevenir las caídas" en pacientes psiquiátricos con deterioro cognitivo. Dado que este tratamiento sería muy útil en esta población, no queremos especialmente cometer un error de tipo II (es decir, no rechazar el nulo, cuando deberíamos rechazarlo).
Como los datos no se distribuyen normalmente, otro colega evaluó los datos completos utilizando (adecuadamente, creo) la prueba de Wilcoxon, y no encontró significación. Es posible que haya razones metodológicas válidas para ello, a las que podré dar seguimiento más adelante con otra pregunta.
Me preocupaba cometer un error de tipo II, y obtuve algunos datos preliminares, que tengo a continuación. Estos datos reflejan las puntuaciones pre/post (# de "caídas") de los mismos pacientes (sin grupo de control), por lo que deben considerarse "emparejados" y no independientes:
pre <- c(9,8,37,12,8,3,4,4,3,5,4,8,4,8,9,11,2,4,0,0,5,12,10,2,8,3,0,22,1,0,0,5,0,3,1,5)
post <- c(10,8,6,4,5,2,4,4,2,2,1,7,2,1,3,9,2,2,0,0,6,16,4,3,4,7,0,10,3,0,0,4,0,1,1,5)
Cuando ejecuté un procedimiento de bootstrapping en estos datos preliminares (adaptado de Crawley, The R Book, p. 385)
preBoot <- numeric(10000)
for (i in 1:10000) {preBoot[i] <- mean(sample(pre, replace=T)) }
quantile(preBoot, c(0.025, 0.975))
y comparé la media posterior con la estimación bootstrap de la distribución muestral de la media, descubrí que el tratamiento tenía un efecto beneficioso significativo. Para evaluar la significación, simplemente tomé los cuantiles de la estimación muestral en 0,025 y 0,975; ¿es esto correcto o estoy confundiendo lo que haría con una distribución normal con la distribución de las estimaciones muestrales de la media?
Además, utilizando wilcox.test en R en los datos preliminares (es decir,
wilcox.test(pre, post, paired=T, exact=F)
muestra que esto es significativo.
Me gustaría saber, antes de seguir adelante, si he utilizado correctamente el procedimiento de bootstrapping y si se trata de una prueba legítima para este tipo de datos.
¿Hay otras pruebas que debamos tener en cuenta, y cuál sería la mejor manera de informar sobre esto? Estoy especialmente interesado en métodos que nos permitan obtener intervalos de confianza.
Además, veo en esta pregunta anterior Prueba de Wilcoxon de una cola la respuesta indicaba que "hay que tener en cuenta que generalmente no es aconsejable utilizar pruebas de una cola", pero si estoy interesado específicamente en que haya menos caídas después de la intervención del tratamiento, ¿no sería apropiada una prueba de una cola?
Actualización de información adicional: Acabo de encontrar una magnífica reseña sobre datos y análisis de recuento de Neal Alexander, Revisión: análisis de recuentos de parásitos y otros recuentos sesgados , accedido a través de PubMed http://www.ncbi.nlm.nih.gov/pubmed/22943299 en el que se discuten los temas que he afrontado de forma muy accesible (y es gratuito en línea). Otros que lean esta pregunta también pueden encontrarlo muy útil.
Todavía estoy digiriendo esta información. Esto probablemente pertenece a una nueva pregunta, pero en esencia, creo que en mi campo (psicología clínica) la forma estándar de ver estos datos sería con una prueba de Wilcoxon, con tal vez una transformación de la raíz cuadrada y una prueba t corriendo en segundo lugar. La mayoría de la gente no utiliza actualmente R, y por lo tanto no parece conocer o utilizar el bootstrapping, que en realidad creo que sería mejor que los dos métodos anteriores. Si alguien tiene más información o información en sentido contrario, se lo agradecería).