2 votos

¿Medianas como entrada para la prueba t?

Tengo algunos puntos de datos biológicos recogidos de células individuales. En mi campo, a menudo veo que la gente promedia los puntos de datos por célula y luego realiza una prueba t utilizando estos promedios como entrada. Esto significa que su n en cada grupo es igual al número de células de las que ha recogido y promediado puntos de datos. Por ejemplo, se obtienen 5 promedios en el grupo de control (de 5 células) y 5 promedios del grupo tratado (otras 5 células), y luego se comparan estos 10 promedios mediante la prueba t.

Pero en mi caso, los datos de cada celda (cientos de puntos de datos por celda) no se distribuyen normalmente, y según tengo entendido la mediana representará entonces los datos con mayor precisión. Utilicé las pruebas de normalidad en GraphPad Prism (Anderson-Darling, D'Ágostino & Pearson, Shaprio-Wilk, Kolmogorov-Smirnov), todas dijeron que los datos no estaban distribuidos normalmente.

¿Está permitido entonces utilizar estas medianas (una de cada celda) como entrada para una prueba t?

Muchas gracias por su ayuda.

[editar para algunos detalles adicionales]

3voto

manku Puntos 111

Dices que tienes un gran número de puntos de datos por celda. En ese las medianas de las celdas deberían tener una distribución normal. (Véase la simulación más abajo). Así que podría realizar una prueba t de dos muestras en las medianas de las celdas para ver si los grupos de Control y Tratamiento difieren. No he visto sus datos, pero probablemente estaría bien utilizar las medias de las celdas porque tiene muchos puntos de datos por celda.

En principio, nada impide realizar un análisis no paramétrico de Mann-Whitney-Wilcoxon. como sugiere @Parnian, pero con sólo cinco celdas cada uno en los grupos de Tratamiento y Control, puede ser un ejercicio inútil. Está cerca del límite inferior absoluto del tamaño de las muestras para los que la prueba MWW es útil.

Por ejemplo, para la prueba MWW basada en rangos, si sólo tuviera cuatro celdas en cada grupo, todas las celdas de tratamiento tendrían que tener "promedios" mayores que cualquiera de las celdas de Control (o viceversa) para obtener un resultado significativo. significativo. Sólo hay ${8 \choose 4} = 70$ posibles disposiciones de los rangos las dos más extremas corresponden a una separación completa de los valores de los dos grupos; $2/70 = 0.029$ por lo que es posible obtener un valor P significativo. Pero en cuanto se produce un solapamiento en en absoluto, el menor valor P posible pasa a ser mayor que $0.05.$

Además, aquí hay un ejemplo de prueba MWW con cinco Valores de tratamiento y cinco de control que no es significativo al nivel del 5%. En cambio, una prueba t encuentra una diferencia significativa a ese nivel.

 wilcox.test(c(10, 20, 30, 40), c(38, 48, 58, 68))$p.val
 [1] 0.05714286

 t.test(c(10, 20, 30, 40), c(38, 48, 58, 68))$p.val
 [1] 0.02201958

Simulación: CLT para media y mediana. Por último, supongamos que tenemos muestras de tamaño 500 de la distribución asimétrica $\mathsf{Gamma}(2, 1).$ Por el Teorema Central del Límite, las medias de tales muestras serán casi normales. Pero también existe un CLT para las medianas. He aquí una simulación con medias a y medianas h de $100\,000$ muestras de tamaño $n=500$ de este distribución. Las medianas son un poco más variables, pero normales al fin y al cabo.

set.seed(604);  m = 10^5;  n = 500
x = rgamma(m*n, 2, 1)
DTA = matrix(x, nrow=m)  # each row of matrix is sample
a = rowMeans(DTA);  h = apply(DTA,1,median)
par(mfrow=c(1,3))
 curve(dgamma(x,2,1), 0,10, col="blue", lwd=2, ylab="PDF", 
       main="Density of GAMMA(2,1)")
   abline(v=0,col="green2"); abline(h=0,col="green2")
 hist(a, prob=T, br=30, col="skyblue2", 
      main="n=500: Sample Means")
 hist(h, prob=T, br=30, col="skyblue2", 
      main="n=500: Sample Medians")
par(mfrow=c(1,1))

enter image description here

1voto

Parnian Puntos 11

Si sus datos no se distribuyen normalmente y por eso utiliza la mediana en lugar de la media para comparar los grupos, puede utilizar la prueba de Mann-Whitney para comparar la diferencia entre los dos grupos.

0voto

Tbone Puntos 79

Aquí hay un documento que habla sobre el uso de la prueba t con un tamaño de muestra extremadamente pequeño "Uso de la prueba t de Student con tamaños de muestra extremadamente pequeños" . Para la parte de la normalidad aquí es algo que encontré en Wikipedia

Para la exactitud, la prueba t y la prueba Z requieren la normalidad de las medias muestrales, y la prueba t requiere además que la varianza muestral siga una distribución χ2 a escala, y que la media y la varianza muestrales sean estadísticamente independientes. La normalidad de los valores de los datos individuales no es necesaria si se cumplen estas condiciones.

Observa que la media muestral en el texto anterior se refiere a la media de las medias de las celdas en tu caso. Supongamos que el valor medio de cada celda es $C_i$ . Aquí "i" sólo va de 1 a 5. El número de celdas no puede garantizar $\bar{C}$ tener una distribución normal. Sería más fácil si $C_i$ s son $i.i.d$ normal. Cuando se calcula el valor medio de cada celda (suponiendo que las muestras de cada celda de todo el grupo proceden de la misma población), $C_i$ s son $i.i.d$ normal por CLT. Aunque la mediana puede seguir a la CLT en algunos casos (véase Teorema central del límite para medianas muestrales para más detalles), el uso de la media funciona en el entorno más general.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X