1 votos

Dada una matriz, cada fila con una lista de números, encuentre las filas más variables con un patrón "interesante"

Tengo un archivo que se puede considerar como una matriz en la que cada fila representa una medida de expresión génica de diferentes muestras (cada columna es una muestra). Quiero encontrar aquellos genes con los patrones de expresión más interesantes entre las muestras. Esto significa que varias muestras tienen un rango de expresión similar, otras pocas muestras tienen otro rango o expresión. Básicamente estoy buscando la variabilidad entre los valores de expresión, pero espero encontrar no sólo una variación aleatoria, sino patrones significativos que puedan ser utilizados para separar mis muestras en grupos biológicamente significativos.

Se me ocurrió esta ingenua idea de usar la desviación estándar en cada fila/gen y encontrar aquellos con mayor desviación estándar. Pero esto no parece ser un buen método en absoluto.

También he pensado en tomar el valor del cuantil 75 y 25 y hacer una simple resta e informar de los que tienen la mayor diferencia, tal vez el 20% de los genes.

Estoy luchando con un método estadísticamente significativo para hacer esto. Tengo la impresión de que este problema se puede encontrar en diferentes contextos y que puede haber algunas herramientas/métodos para abordarlo. ¿Alguien tiene alguna sugerencia o comentario sobre los métodos que he mencionado?

0voto

physicus Puntos 2245

Yo sugeriría el análisis de componentes principales (o el estrechamente relacionado análisis de coordenadas principales, PCO).

El PCA descompone un conjunto de datos de alta dimensión (en el que cada gen puede considerarse una dimensión) en un número menor de dimensiones, conservando al mismo tiempo la mayor parte posible de la varianza del conjunto de datos original. El primer componente principal de un conjunto de datos explicará la mayor fracción de la varianza. A continuación, se pueden observar las "cargas" de ese componente para ver qué genes contribuyen a él. Los genes con las cargas absolutas más altas serán los que tengan el patrón que mejor distinga entre las muestras. Usted haría el PCA en R con:

pca <- prcomp(expression_matrix)
weightings <- pca$rotations[,1]

Recuerda poner tus genes a lo largo de las columnas y tus muestras en las filas. weightings contendrá ahora las ponderaciones del primer componente principal, y la selección de las entradas en weightings con los mayores valores absolutos le dirá qué genes contribuyen más.

Una alternativa sería hacer un bicluster de los datos, y seleccionar aquellos genes que parezcan impulsar la agrupación de las muestras.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X