1 votos

Pruebas de hipótesis a través de múltiples muestras con ninguna variable independiente y un resultado categórico

Estoy trabajando con datos de secuenciación de ADN, y tengo 8 muestras de una misma cohorte, todas las muestras han sido sometidas al mismo tratamiento mutagénico (un grupo, sin variable independiente). En las muestras se encuentran seis clases de mutaciones (Mut1-Mut6) con frecuencias/cuentas variables. Como se desprende de los datos que se muestran a continuación, la Mut4 se produce con una frecuencia mayor que las demás clases de mutación:

          Mut1   Mut2   Mut3    Mut4   Mut5   Mut6
Sample1   88     27     26      508    51     40
Sample2   438    108    102     1828   184    145
Sample3   334    78     92      1454   151    131
Sample4   146    38     41      448    40     24
Sample5   165    39     54      420    43     37
Sample6   79     20     28      244    39     20
Sample7   133    30     40      404    35     29
Sample8   119    37     54      382    44     40

Me gustaría mostrar que en toda la cohorte, la Mut4 se produce con mayor frecuencia que las otras clases de mutaciones, pero no puedo encontrar una forma adecuada de hacerlo.

A mí me parece que lo más apropiado sería una prueba de chi-cuadrado, con una hipótesis nula de una distribución plana. Usando R, y habiendo leído los datos como freq Esto se puede comprobar fácilmente para una sola muestra utilizando la función chisq.test comando:

chisq.test(freq[1,], p=rep(1/6, times=6))

Sin embargo, me gustaría comprobarlo en toda la cohorte, no sólo en la muestra única. He considerado la posibilidad de sumar todos los recuentos de mutaciones en toda la cohorte, pero esto daría lugar a problemas con ciertas muestras que se ponderan más que otras (por ejemplo, las muestras 2 y 3 tienen recuentos de mutaciones muy altos en comparación con la muestra 6). Este problema podría mitigarse utilizando proporciones en lugar de recuentos, pero no estoy seguro de que esta sea una forma adecuada de realizar esta prueba.

También he probado a ejecutar el comando chisq.test en todo el conjunto de datos de la siguiente manera:

chisq.test(freq, p=rep(1/6, times=6))

Pero no estoy seguro de cómo se calculan realmente los resultados, y estoy desconcertado por el hecho de que los resultados parecen no verse afectados en absoluto por lo que introduzco como valores para p .

¿Estoy en el camino correcto usando un chi-cuadrado, y si es así, cuál es la forma correcta de avanzar desde aquí? O estoy completamente desviado, y si es así, ¿cuál sería la forma correcta de probar si Mut4 ocurre con más frecuencia que las otras clases de mutaciones?

1voto

EdM Puntos 5716

Su idea de empezar con una prueba de chi-cuadrado, basada en las diferencias al cuadrado entre el número de casos observado y el esperado en cada celda, es un enfoque correcto. Los problemas son la forma que debe adoptar esa prueba y cómo proceder para probar la idea de que hay algo especial en Mut4, como sugieren sus datos.

Una prueba estándar de chi-cuadrado de una tabla de contingencia de 2 vías calcula el número de casos esperados en cada celda de la tabla, bajo la hipótesis nula, a partir de los totales de las filas y columnas correspondientes. Se puede encontrar un ejemplo aquí . Esta prueba, sin embargo, examina si hay asociaciones entre filas o columnas. Su hipótesis nula es que el número de casos en cada celda sólo depende de los totales de las filas y columnas correspondientes como fracciones del número total de casos. No prueba si hay diferencias entre las columnas (en este caso, las clases de mutación) o entre las filas (muestras).

Sin embargo, puede establecer su propia prueba de chi-cuadrado de su hipótesis nula de interés, que es que no hay diferencias de frecuencia entre los tipos de mutación. En este caso, el número esperado de casos en cada celda sería 1/6 del número total de casos de la muestra correspondiente. La página web p argumento para chisq.test() permite estas hipótesis específicas (dividir las cifras previstas por el total de casos, o establecer rescale.p =TRUE), pero el código R para chisq.test (que se obtiene introduciendo chisq.test en el prompt y pulsando return) muestra que este argumento se ignora para una tabla bidimensional, tal y como has encontrado. Evite este problema apilando los datos en un único vector, proporcionando las correspondientes probabilidades esperadas en su p argumento.

Sin embargo, esta prueba de chi-cuadrado significativa sólo documenta que existe una diferencia con respecto a la hipótesis nula en alguna parte; no dice qué diferencias concretas son significativas. Es lo mismo que ocurre con el ANOVA, donde una prueba F significativa no dice qué grupos concretos difieren. En su caso, sin una hipótesis predefinida, tiene que corregir para probar un resultado que fue sugerido por los datos, una prueba post-hoc. Esta página y esta página son lugares razonables para empezar, aunque con sus datos una prueba formal podría considerarse exagerada.

También sería adecuado algún tipo de modelo lineal. Aunque los datos de recuento se analizan a menudo con modelos lineales generalizados basados en la familia de Poisson, con su gran número de casos un simple ANOVA basado en los logaritmos de los recuentos, o en las frecuencias observadas, podría funcionar bastante bien. Para probar las diferencias entre las clases de mutaciones en términos de frecuencias, todavía tendría que utilizar un prueba post-hoc . La corrección de las comparaciones múltiples post-hoc suele ser un problema en los análisis genómicos, por lo que merece la pena dedicar algún esfuerzo a conocer las diferencias entre las distintas pruebas.

0voto

jacktrades Puntos 132

Chi2 funciona bajo supuestos gaussianos. En primer lugar, sería bueno convertir los recuentos en frecuencias. Luego utilizaría un ANOVA numérico o no paramétrico para probar H0 que todos los grupos (mutaciones en su caso) tienen la misma media.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X