6 votos

¿Cómo visualizar / resumir una matriz con el número de filas$\gg$ número de columnas?

Tengo una matriz de números reales positivos entre 0 y 1, las filas representan los genes y las columnas representan las muestras. Número de filas es mayor que el número de columnas de una magnitud de $10^4$. Me pregunto cómo visualizar esto en R. Sé mapa de calor es una de las maneras de hacer esto, pero hay otras ideas. Aquí hay algunos puntos que quiero destacar en la visualización:

Datos:

  1. Las filas y las columnas no tienen para ellos (como puede que ya se han dado cuenta); específicamente de las filas y las columnas son intercambiables.
  2. Las entradas de la matriz son números reales positivos entre 0 y 1.
  3. Una pequeña fracción de los datos (10% de las filas o de los genes, alrededor de 1000) son realmente "interesante".
  4. La matriz representa la probabilidad estimada de los genes que ser más activo en una muestra.

Objetivo:

  1. Quiero mostrar: que los genes son más activos y en los que muestra. La matriz tiene un montón de filas en las que las probabilidades son muy similares a través de las columnas.
  2. Estoy bien con el pedido de las filas (los genes) para hacer que el patrón más claro.

Mis pensamientos:

En el momento en el que puede determinar los genes activos en una muestra mediante la elección de un corte de decir $\ge 95\%$) y organizar los genes de tal manera que el primer conjunto de filas son los genes activos en el ejemplo 1, el segundo conjunto de filas son los genes activos en el ejemplo 2, ...

Yo también estaba pensando acerca de la visualización de un subconjunto de los datos, puede ser por muestreo filas. Pero yo no tuve ningún éxito.

Sé que estas ideas pueden no ser muy elegante, pero reorganiza mis datos en una forma que hace que el patrón más reconocible.

Sé que preguntas similares se han preguntado antes, pero pensé que mi consulta era un poco más específico, por lo que espero que pueda conseguir mejores aportaciones de los miembros de este foro.

6voto

DavLink Puntos 101

Yo iba a sugerir algo a lo largo de @whuber la respuesta (he usado este reordenamiento técnica, pero en un contexto de selección de características, así que me concentré principalmente con las "variables de vista"). Por tanto, permítanme sugerir otros dos direcciones (pero el primero está cerca de la propuesta ya uno).

Tan lejos como mapas de calor se refiere, puede mostrarlos después de una ligera reordenación de filas (muestras) y/o columnas (los genes) a través de la agrupación jerárquica (otro método de agregación basada en un (des)medida de similitud). Hay un montón de R paquetes que pueden hacer esto, por ejemplo el cim() función en mixOmics. Otro paquete que puede ser de interés es MADE4; se basa en la muy buena ade4 paquete para multivariante, análisis y visualización de datos.

Si a usted le preocupa el gran número de variables, también podría considerar algunas método de reducción para los genes de la agrupación. Uno de los que he oído hablar es de la PCA-gen de afeitar (Hastie et al., 2000), que es ampliamente descrito en Izenman (2008). En esencia, esta es una de dos etapas de procedimiento iterativo donde (a) para la selección de características, destacamos los genes cuya correlación con el primer componente principal se encuentra debajo de una distribución basada en umbral (es decir, el 10% de los genes que tienen la más baja correlación en cada paso), y (b) para la agrupación, que buscan maximizar una $R^2$ medida (entre-clúster/dentro de un clúster de las varianzas) por $j$ de los sucesivos grupos de tamaño $k_j$, donde el óptimo $k_j$ se obtiene una permutación de la técnica y el uso de la brecha de estadística (después de los efectos de la ex clúster ha sido eliminado por residualization). Informaciones más detalladas se pueden encontrar en el documento se hace referencia más adelante, pero la idea general es la de clúster de genes en las pequeñas y potencialmente la superposición de subconjuntos de correlación de los genes que varían tanto como sea posible a través de los individuos.

Referencias

  1. Hastie, T., Tibshirani, R., Eisen, M. B., Alzadeh, A., Levy, R., Staudt, L., Chan, W. C., Botstein, D. y moreno, P. O. (2000). 'Gen de afeitar" como un método para la identificación de los distintos conjuntos de genes con patrones de expresión similares. Genome Biology, 1(2).
  2. Izenman, A. J. (2008). Modernas Técnicas Estadísticas Multivariables. Springer.

6voto

jldugger Puntos 7490

Encontrar unidimensional multidimensional scaling soluciones para las filas y de las columnas (por separado), con independencia de las medidas de similitud que te gusta (como la correlación). Ordenar las filas y columnas de acuerdo a sus MDS posiciones. Esto traerá genes similares juntos y muestras similares juntos. Todo esto puede ser fácilmente visualizado como una matriz de la trama (por ejemplo, la normalización de los valores para el rango de 0..255 y los muestran como una imagen en escala de grises).

Un 50 por 6 matriz de la normal estándar variables fue procesada de esta manera (usando la distancia Euclídea como la proximidad de las medidas):

Array plot

No hay mucho para ver, después de todo, estos datos son iid-pero mira las matrices de correlación de la reordenar las columnas y filas:

Column correlations

Row correlations

(rojo = positivo, azul = negativo). Las concentraciones de correlaciones positivas a lo largo de las diagonales y una correlación negativa fuera de las diagonales de mostrar el método que ha funcionado como se anuncia. (Con los datos originales, las matrices de correlación son aleatorios, demasiado, provocando que el rojo y el azul de las células a ser más uniforme intercalados en todo.)

En mi experiencia, cuando incluso hay sutiles distinto de cero correlaciones entre las filas y/o columnas, este método hace un excelente trabajo de llevarlos a cabo en la matriz original de la parcela (escala de grises) y proporcionar una representación visual de la agrupación a lo largo de las dos dimensiones. Grandes bloques a lo largo de las diagonales de la correspondiente matriz de correlación de las parcelas ayudar a identificar fuertemente agrupados en grupos de filas o de columnas.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X