3 votos

ejecución de múltiples pruebas t en un gran conjunto de datos

Estoy tratando de averiguar si una prueba t es la más apropiada en esta situación:

Tengo un marco de datos que se parece al de abajo, pero mi marco de datos tiene aproximadamente 37.000 filas. Me gustaría ejecutar una prueba t en cada fila, para comprobar la diferencia de la media entre todos los valores de la muestraA y todos los valores de la muestraB.

En otras palabras, acabaría ejecutando 37.000 pruebas t individuales, ya que las ejecutaría a lo largo de las filas. Cada gen puede ser considerado como independiente de todos los demás genes.

Actualmente estoy realizando una prueba t de dos colas y me pregunto si esto es apropiado. ¿Sería conveniente realizar una prueba de Benjamini/Hochberg (no negativa) para obtener la tasa de falsos descubrimientos? ¿Estoy pensando que un FDR con alfa = 0,01 sería apropiado?

gracias

gene    sampleA1   sampleA2    sampleA3 ... sampleA6  sampleB1   sampleB2  sampleB3 ..sampleB7
TP53    2         3           0             5         0         0         0          3
FOXO    4         0           1             2         0         0         1          1
GV13    2         2           0             0         0         0         0          0

0voto

gianMa Puntos 53

En primer lugar, es fundamental realizar múltiples correcciones de hipótesis de algún tipo. La corrección de Benjamini/Hochberg es buena si se trata de un descubrimiento, y suele aplicarse en este contexto. La corrección de Bonferroni es mucho más estricta, pero puede ser útil si se quiere ser muy conservador. Alfa = 0,01 es una buena idea, pero también se puede considerar la posibilidad de reducirla a alfa = 0,05 y tal vez poner una restricción adicional en la diferencia mínima entre los grupos. Esto se debe a que usted podría preocuparse por los genes que tienen al menos una cierta diferencia e ignorar los otros (incluso si son significativos).

En principio, hacer la prueba t no es per se una idea equivocada cuando se trata de este tipo de problemas, por lo que tu línea de razonamiento tiene sentido.

Sin embargo, considere que muchos modelos estadísticos excelentes tratan este tipo de datos. Por su instantánea, puedo adivinar que está tratando con datos de recuento de ARN-seq, ¿es ese el caso? Si es así, le recomiendo que consulte DESEQ2 o EdgeR , modelos estadísticos adaptados a este entorno. Si se trata de recuentos, una prueba t no sería la mejor opción, y esos modelos son mejores para tratar la característica intrínseca de los datos de recuento.

EDIT: He añadido algunos detalles.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X