Tengo múltiples pruebas $t$ emparejadas, como una que da los siguientes resultados:
$t_{14} = 2.7, p = .017$
Aunque parece que las personas hacen tamaños de efecto de manera diferente en muestras repetidas, he tomado la diferencia promedio dividida por la desviación estándar de las diferencias (lo llamaré $d$, ¿aunque tal vez debería llamarlo de otra manera?) y obtengo $0.70$. También tengo una correlación muy fuerte entre las muestras, no estoy seguro si eso es problemático.
Me gustaría poner límites de confianza alrededor de mi estimación del tamaño del efecto. Para hacerlo, vuelvo a muestrear aleatoriamente los puntajes de diferencia, calculo $d$ de la misma manera y repito esto 1000 veces. Mi pregunta es si este es un buen enfoque, en lugar, digamos, de simplemente dar límites de confianza alrededor de la diferencia no estandarizada o remuestrear de las muestras originales. Mi bootstrap me da una media de $d$ de $0.79$ con límites de confianza de $[0.4, 1.4]$. He probado esto en otros datos aleatorios también. ¿Por qué estoy obteniendo un $d$ más alto de manera consistente al hacer bootstrap, y por qué los intervalos son asimétricos? ¿Es esto debido a la asimetría en los puntajes de diferencia, y esto hace que este enfoque sea más o menos robusto?
Edición: aquí hay un ejemplo de los datos involucrados. 15 personas fueron medidas dos veces.
Media A = 1742; SD = 435
Media B = 1820; SD = 426
Diferencia de medias = 78, SD de las diferencias = 111, $d$ = 0.70
A B
1999 2040
1501 1601
1552 1623
2385 2386
2488 2671
1257 1218
1806 1719
1348 1405
2048 2079
1810 2017
1308 1356
2310 2324
1247 1616
1839 1878
1235 1370
0 votos
Solo para decir que he encontrado material útil en estas páginas (aunque no tengo una respuesta específica para el caso de la creación de intervalos de confianza para un tamaño de efecto) stats.stackexchange.com/questions/71525/…, stats.stackexchange.com/questions/73818/…
0 votos
No estoy seguro de estar siguiendo esto. ¿Puede darme un ejemplo sencillo / algunos datos de ejemplo? ¿Se trata de un problema de comparaciones múltiples?
0 votos
@gung Gracias por tu atención. La cita que mencioné es solo un ejemplo simple, sin embargo, puedo encontrar algunos datos si lo deseas. El problema no se trata de comparaciones múltiples. Se trata de (1) cómo calcular los tamaños de efecto en una prueba t pareada; (2) si tiene sentido generar un intervalo de confianza mediante bootstrap en este caso; y (3) por qué este intervalo podría ser asimétrico.
0 votos
¿Cuáles son las "muestras repetidas" que supuestamente llevan a las personas a "calcular tamaños de efecto de diferentes maneras"? Para que las personas aquí entiendan por qué la media de sus muestras de arranque es diferente y el intervalo de confianza es asimétrico, probablemente necesitarás pegar tus datos y tu código.
0 votos
He añadido algunos datos. ¿Existe una mejor forma de hacer tablas aquí? Para obtener más información sobre las diferentes formas de calcular tamaños de efecto en medidas repetidas, consulte los enlaces en mi primer comentario (básicamente, algunos prefieren utilizar la DE combinada como denominador en lugar de la DE de las puntuaciones de diferencia).
0 votos
Para lo que vale, tuve este mismo problema teórico hace algunos meses (es decir, intentando determinar el denominador correcto para calcular el tamaño del efecto para una prueba t emparejada); a partir de mi investigación en la literatura y de jugar un poco con algunos datos simulados, encontré que usar la desviación estándar de las puntuaciones de diferencia como denominador es preferible a usar la desviación estándar agrupada. En este momento no puedo encontrar las referencias específicas que utilicé, pero intentaré encontrarlas y publicar enlaces cuando tenga la oportunidad.
0 votos
@Ryan, usando la desviación estándar agrupada (si te refieres a agrupada en dos grupos) no tiene sentido. La variación dentro de cada grupo puede ser enorme, pero todas las diferencias entre pares pueden estar cerca de cero. Claramente se debe utilizar la desviación estándar de las diferencias.
0 votos
@amoeba ... ¿lo que dije exactamente? Dije que es preferible usar la desviación estándar de las diferencias ...
0 votos
@Ryan, sí, no contradigo lo que dijiste, solo pensé que "preferible" es una palabra demasiado débil para describirlo :-)
0 votos
@amoeba ¡Entendido! Dije "preferible" solo porque no podía recordar la justificación exacta y no quería ser demasiado insistente. ¡Pero gracias por la aclaración!