Estoy trabajando con datos de secuenciación de ADN, y tengo 8 muestras de una misma cohorte, todas las muestras han sido sometidas al mismo tratamiento mutagénico (un grupo, sin variable independiente). En las muestras se encuentran seis clases de mutaciones (Mut1-Mut6) con frecuencias/cuentas variables. Como se desprende de los datos que se muestran a continuación, la Mut4 se produce con una frecuencia mayor que las demás clases de mutación:
Mut1 Mut2 Mut3 Mut4 Mut5 Mut6
Sample1 88 27 26 508 51 40
Sample2 438 108 102 1828 184 145
Sample3 334 78 92 1454 151 131
Sample4 146 38 41 448 40 24
Sample5 165 39 54 420 43 37
Sample6 79 20 28 244 39 20
Sample7 133 30 40 404 35 29
Sample8 119 37 54 382 44 40
Me gustaría mostrar que en toda la cohorte, la Mut4 se produce con mayor frecuencia que las otras clases de mutaciones, pero no puedo encontrar una forma adecuada de hacerlo.
A mí me parece que lo más apropiado sería una prueba de chi-cuadrado, con una hipótesis nula de una distribución plana. Usando R, y habiendo leído los datos como freq
Esto se puede comprobar fácilmente para una sola muestra utilizando la función chisq.test
comando:
chisq.test(freq[1,], p=rep(1/6, times=6))
Sin embargo, me gustaría comprobarlo en toda la cohorte, no sólo en la muestra única. He considerado la posibilidad de sumar todos los recuentos de mutaciones en toda la cohorte, pero esto daría lugar a problemas con ciertas muestras que se ponderan más que otras (por ejemplo, las muestras 2 y 3 tienen recuentos de mutaciones muy altos en comparación con la muestra 6). Este problema podría mitigarse utilizando proporciones en lugar de recuentos, pero no estoy seguro de que esta sea una forma adecuada de realizar esta prueba.
También he probado a ejecutar el comando chisq.test en todo el conjunto de datos de la siguiente manera:
chisq.test(freq, p=rep(1/6, times=6))
Pero no estoy seguro de cómo se calculan realmente los resultados, y estoy desconcertado por el hecho de que los resultados parecen no verse afectados en absoluto por lo que introduzco como valores para p
.
¿Estoy en el camino correcto usando un chi-cuadrado, y si es así, cuál es la forma correcta de avanzar desde aquí? O estoy completamente desviado, y si es así, ¿cuál sería la forma correcta de probar si Mut4 ocurre con más frecuencia que las otras clases de mutaciones?