4 votos

Tamaño del efecto y bootstrap en la prueba t pareada

Tengo múltiples pruebas $t$ emparejadas, como una que da los siguientes resultados:

$t_{14} = 2.7, p = .017$

Aunque parece que las personas hacen tamaños de efecto de manera diferente en muestras repetidas, he tomado la diferencia promedio dividida por la desviación estándar de las diferencias (lo llamaré $d$, ¿aunque tal vez debería llamarlo de otra manera?) y obtengo $0.70$. También tengo una correlación muy fuerte entre las muestras, no estoy seguro si eso es problemático.

Me gustaría poner límites de confianza alrededor de mi estimación del tamaño del efecto. Para hacerlo, vuelvo a muestrear aleatoriamente los puntajes de diferencia, calculo $d$ de la misma manera y repito esto 1000 veces. Mi pregunta es si este es un buen enfoque, en lugar, digamos, de simplemente dar límites de confianza alrededor de la diferencia no estandarizada o remuestrear de las muestras originales. Mi bootstrap me da una media de $d$ de $0.79$ con límites de confianza de $[0.4, 1.4]$. He probado esto en otros datos aleatorios también. ¿Por qué estoy obteniendo un $d$ más alto de manera consistente al hacer bootstrap, y por qué los intervalos son asimétricos? ¿Es esto debido a la asimetría en los puntajes de diferencia, y esto hace que este enfoque sea más o menos robusto?


Edición: aquí hay un ejemplo de los datos involucrados. 15 personas fueron medidas dos veces.

Media A = 1742; SD = 435
Media B = 1820; SD = 426
Diferencia de medias = 78, SD de las diferencias = 111, $d$ = 0.70

    A    B
 1999 2040
 1501 1601
 1552 1623
 2385 2386
 2488 2671
 1257 1218
 1806 1719
 1348 1405
 2048 2079
 1810 2017
 1308 1356
 2310 2324
 1247 1616
 1839 1878
 1235 1370

0 votos

Solo para decir que he encontrado material útil en estas páginas (aunque no tengo una respuesta específica para el caso de la creación de intervalos de confianza para un tamaño de efecto) stats.stackexchange.com/questions/71525/…, stats.stackexchange.com/questions/73818/…

0 votos

No estoy seguro de estar siguiendo esto. ¿Puede darme un ejemplo sencillo / algunos datos de ejemplo? ¿Se trata de un problema de comparaciones múltiples?

0 votos

@gung Gracias por tu atención. La cita que mencioné es solo un ejemplo simple, sin embargo, puedo encontrar algunos datos si lo deseas. El problema no se trata de comparaciones múltiples. Se trata de (1) cómo calcular los tamaños de efecto en una prueba t pareada; (2) si tiene sentido generar un intervalo de confianza mediante bootstrap en este caso; y (3) por qué este intervalo podría ser asimétrico.

2voto

BillyJean Puntos 118

Voy a intentar responder, pero no estoy del todo seguro de mi propio conocimiento sobre el tema.

Bootstrap, tanto como yo sé, siempre se realiza en los datos originales. En tu caso, los datos originales son pares de datos. Por lo tanto, para hacer un bootstrap, tendrías que muestrear al azar (con reemplazo) los pares de datos originales. Eso es equivalente a hacer el bootstrap en las puntuaciones de diferencia y realizar el cálculo del tamaño del efecto como lo describiste en las muestras.

Obtengo un resultado diferente al tuyo (en R)

a=read.table(header=F,text="
1999 2040
1501 1601
1552 1623
2385 2386
2488 2671
1257 1218
1806 1719
1348 1405
2048 2079
1810 2017
1308 1356
2310 2324
1247 1616
1839 1878
1235 1370
")
d=a$V2-a$V1
mean(d)/sd(d)
[1] 0.7006464
aux=function(x,i) mean(x[i])/sd(x[i])
bb=boot::boot(d,aux,R=1000)
mean(bb$t)
[1] 0.7530415
boot::boot.ci(bb)
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
Based on 1000 bootstrap replicates

CALL : 
boot::boot.ci(boot.out = bb)

Intervals : 
Level      Normal              Basic         
95%   ( 0.1840,  1.0846 )   ( 0.1454,  1.0570 )      

Level     Percentile            BCa          
95%   ( 0.3443,  1.2559 )   ( 0.1634,  1.0722 )  
Calculations and Intervals on Original Scale
Some BCa intervals may be unstable

(código corregido según los comentarios)

De hecho, la calculación directa del tamaño del efecto (mean(d)/sd(d)) no es similar a la calculación bootstrap (mean(bb$t)). No sé cómo explicarlo.

La única intervalo de confianza que coincide con la tuya es el percentil (no sé realmente qué intervalo elegir por motivos teóricos, uso el BCa, creo que fue sugerido en algún lugar).

La segunda forma de calcular un IC en el tamaño del efecto es usando fórmulas analíticas. Esta pregunta en CV discutió las fórmulas Cómo puedo calcular el intervalo de confianza del 95% de un tamaño de efecto si tengo la puntuación de diferencia media, IC de esa puntuación de diferencia

Usando el paquete MBESS obtengo el siguiente IC

MBESS::ci.sm(Mean = mean(d), SD=sd(d),N=length(d))
[1] "The 0.95 confidence limits for the standardized mean are given as:"
$Lower.Conf.Limit.Standardized.Mean
[1] 0.1231584

$Standardized.Mean
[1] 0.7006464

$Upper.Conf.Limit.Standardized.Mean
[1] 1.258396

En cuanto a tu sugerencia de calcular el intervalo de confianza para la puntuación de diferencia y usarlo para calcular un intervalo de confianza en el tamaño del efecto, nunca he oído hablar de eso, y sugeriría no usarlo.

2 votos

+1 a @amoeba, creo que quieres usar mean(bb$t). Buena respuesta; +1 tan pronto como arregles ese problema.

1 votos

Respuesta muy útil. Sin embargo, tengo preguntas. mean(bb$t) devuelve 0.76 que, como en mi ejemplo, es considerablemente mayor que el valor de la muestra. Todos los intervalos también son asimétricos, mientras que mi entendimiento era que esto no debería ser el caso para ICs computados analíticamente.

0 votos

Hay un corchete de cierre que falta en la llamada a la función / significa, ¡aparentemente no se permiten ediciones de 1 caracter!

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X