Estoy tratando de averiguar si una prueba t es la más apropiada en esta situación:
Tengo un marco de datos que se parece al de abajo, pero mi marco de datos tiene aproximadamente 37.000 filas. Me gustaría ejecutar una prueba t en cada fila, para comprobar la diferencia de la media entre todos los valores de la muestraA y todos los valores de la muestraB.
En otras palabras, acabaría ejecutando 37.000 pruebas t individuales, ya que las ejecutaría a lo largo de las filas. Cada gen puede ser considerado como independiente de todos los demás genes.
Actualmente estoy realizando una prueba t de dos colas y me pregunto si esto es apropiado. ¿Sería conveniente realizar una prueba de Benjamini/Hochberg (no negativa) para obtener la tasa de falsos descubrimientos? ¿Estoy pensando que un FDR con alfa = 0,01 sería apropiado?
gracias
gene sampleA1 sampleA2 sampleA3 ... sampleA6 sampleB1 sampleB2 sampleB3 ..sampleB7
TP53 2 3 0 5 0 0 0 3
FOXO 4 0 1 2 0 0 1 1
GV13 2 2 0 0 0 0 0 0