Algunos métodos de deconvolución de la expresión génica parten de suposiciones sobre los perfiles de expresión génica (PEG) de los tipos de células individuales en una mezcla. Otros parten de suposiciones sobre las fracciones de tipos celulares individuales dentro de cada conjunto de muestras. Más recientemente, se han desarrollado métodos para tratar de estimar tanto las fracciones de los tipos celulares como los PGE de los tipos celulares simultáneamente.
Para pregunta 1 el tipo de deconvolución realizado por CIBERSORT El método en cuestión en el consulta a la ayuda de Bioconductor que enlazas en un comentario, comienza con un conjunto de genes cuyos niveles de expresión ya han sido determinados para tipos celulares individuales dentro del tejido, los GEP de tipo celular. Estos pueden haberse determinado a partir de cultivos celulares puros de tipos celulares individuales o de la secuenciación de ARN de una sola célula (sc-RNAseq). A continuación, se toma un conjunto de múltiples muestras a granel y se utilizan los GEPs conocidos para los tipos de células individuales para encontrar las proporciones de los tipos de células dentro de cada muestra que mejor coinciden con la expresión global observada de esos genes.
Este enfoque asume que el GEP para cada tipo de célula es fijo y constante entre todas las muestras de tejido a granel. Si usted está interesado en la expresión específica del tipo de célula de uno de los genes en el GEP, eso ya está fijado por su expresión dentro del supuesto GEP. Si está interesado en la expresión específica del tipo de célula de un gen que no está dentro de un BPA, ¡no tiene ninguna información directa en absoluto! Después de la deconvolución, se conocen los números relativos de cada tipo de célula, pero fuera de los genes en el BPA no se sabe en ese momento nada sobre cómo difiere la expresión entre los tipos de células. Multiplicar simplemente un valor de expresión génica por la fracción de células de un tipo supondría que todos los tipos de células tienen la misma expresión de ese gen, lo que no es una suposición muy razonable.
Para pregunta 2 lo más sencillo es empezar con un método de deconvolución temprano, csSAM diseñado originalmente para datos de expresión génica procedentes de microarrays. Ese método supone que ya se conoce la fracción de cada tipo de célula dentro de cada muestra, determinada, por ejemplo, por citometría de flujo para distinguir los tipos de células sanguíneas en una muestra de sangre masiva.
Si se tiene un gran número de muestras con una variedad suficientemente amplia de fracciones de tipo celular, entonces se puede intentar asociar las diferencias de expresión génica entre las muestras con las diferencias de fracciones de tipo celular entre las muestras. El método csSAM lo hace mediante una regresión ordinaria por mínimos cuadrados. Para cada gen, se hace una regresión de sus valores de expresión contra las fracciones de tipo celular conocidas para las muestras. Los coeficientes de regresión correspondientes a cada tipo de célula para ese gen proporcionan su expresión media estimada en ese tipo de célula. A continuación, puede combinar las asociaciones de genes individuales con los tipos de células en un GEP para el tipo de célula.
A diferencia de CIBERSORT, que asume el mismo BPA para un tipo de célula entre todas las muestras, csSAM sólo asume que se conoce el fracciones de tipos de células dentro de cada muestra. Por lo tanto, si tiene varias muestras a granel recogidas, por ejemplo, en dos condiciones diferentes, puede examinar las diferencias de BPA para el mismo tipo de célula entre las condiciones.
Si se comienza con CIBERSORT para estimar las fracciones de los tipos de células entre un conjunto de muestras En este caso, se podría utilizar un enfoque como csSAM para estimar las BPA del tipo de célula para los genes que no están en las BPA utilizadas por CIBERSORT. Eso nos lleva a la deconvolución no supervisada.
Más reciente deconvolución no supervisada métodos que, esencialmente, reúnen esos dos enfoques. Se trata de encontrar el combinación de fracciones de tipo celular por muestra y BPA por tipo de celda que mejor represente los datos. Por ejemplo, CDSeq utiliza un tipo de modelo que se ha utilizado para clasificar los documentos de forma no supervisada en tipos, la asignación latente de Dirichlet (LDA). En la clasificación de documentos se modelan simultáneamente las distribuciones de palabras en los diferentes tipos de documentos y el número de tipos de documentos; para la deconvolución de expresiones genéticas, se modelan simultáneamente las BPA de los diferentes tipos de células y el número de tipos de células.
Lo bien que funciona esa deconvolución completamente no supervisada para la expresión génica es una cuestión abierta. Por ejemplo, el suplemento de un reciente preimpresión de bioRxiv que amplía el método CDSeq comparó su deconvolución no supervisada con Datos de sc-RNAseq en tumores de cabeza y cuello para intentar alinear los tipos celulares identificados por CDSeq con los tipos celulares conocidos. (Un tumor contiene tanto células cancerosas invasivas como varios tipos de células normales, muchas de las cuales representan una respuesta a la invasión de las células cancerosas). 11 de los 19 tipos celulares identificados de forma no supervisada se encontraron fuertemente relacionados con un BPA de fibroblastos conocido (por lo que presumiblemente no eran células cancerosas invasivas), mientras que sólo 1 o 2 presentaban incluso una relación moderada de BPA con el conocido para la cabeza y el cuello invasivos cáncer células. Esto podría ser correcto, pero uno podría haber esperado encontrar mejores asociaciones con los diversos cáncer tipos de células ya distinguidos en el trabajo de sc-RNAseq.
En respuesta al comentario sobre CIBERSORTx
CIBERSORTx se ha propuesto como una forma de obtener BPAs específicos para cada tipo de célula dentro de muestras individuales y no sólo una estimación agrupada en todas las muestras para cada tipo de célula. Esa "deconvolución de alta resolución" permitiría determinar los cambios de expresión específicos de cada tipo celular en función de las condiciones experimentales que difieren entre las muestras. He aquí una descripción aproximada de cómo se hace, basada principalmente en Figura suplementaria 7 asociados con el manuscrito.
El análisis comienza con un desglose global de la expresión por tipo de célula entre todas las muestras, como en el caso anterior, para obtener estimaciones de las fracciones de tipo de célula en cada muestra. Esas fracciones de tipo celular por muestra se utilizan en todo lo que sigue.
A continuación, se realiza la deconvolución por muestra gen por gen . Para cada gen, las muestras están dispuestas en orden de expresión creciente. La idea es que un tipo de célula con expresión diferencial de ese gen entre las muestras tenderá a estar representado diferencialmente en uno u otro extremo de ese ordenamiento de las muestras. Además, es probable que las muestras con valores de expresión similares de ese gen tengan representaciones similares de las expresiones específicas del tipo celular.
Así que para cada gen a ti:
-
Divida el conjunto de muestras en 2 subconjuntos por encima/por debajo de un límite en los valores de expresión y haga deconvoluciones de tipo celular por separado dentro de cada uno de los 2 subconjuntos de muestras.
-
Mueva ese corte para encontrar el corte que mejor recapitule los datos de expresión génica basados en las deconvoluciones separadas para los 2 subconjuntos.
-
Omita cualquier tipo de célula que no muestre una expresión diferencial entre esos dos subconjuntos de muestras, y repita lo anterior para afinar. Esto proporciona un conjunto de "anclas", valores de expresión específicos del tipo de célula dentro de cada uno de los 2 subconjuntos, para restringir la estimación final.
-
Obtenga una estimación global inicial de un conjunto de valores de expresión suaves y específicos para cada tipo de célula y muestra. Se comienza con $w$ muestras que tienen la expresión más baja del gen, ajustan la expresión específica del tipo de célula y de la muestra dentro de la "ventana" de $w$ muestras y, a continuación, desplazar esa "ventana" de anchura constante progresivamente hacia las muestras con valores de expresión más elevados. "...las diferencias de expresión específicas de la muestra para un determinado tipo de célula se promedian dentro de una ventana determinada, a pesar de que se capturan a través de las ventanas" (página 36 del material suplementario enlazado anteriormente).*
-
Ajuste esa estimación inicial a los "anclajes" del paso 4 para obtener la estimación final de las estimaciones de expresión específicas del tipo de célula y de la muestra para ese gen.
-
Repita la operación para todos los genes y combínelos en BPA completos para cada tipo de célula y muestra.
El artículo también proporciona métodos que permiten una mejor comparación de los resultados de expresión génica entre diferentes plataformas de análisis de expresión, avances prácticos críticos que amplían la utilidad de todos los métodos de deconvolución.
*Para tratar lo que ocurre con la "ventana" cuando se llega al extremo superior de las muestras clasificadas por expresión, se repiten los últimos valores para rellenar la parte superior $w-1$ muestras, pasar por todo el proceso en orden desde la expresión más alta a la más baja, y luego promediar los 2 conjuntos de expresiones suavizadas específicas del tipo de célula y de la muestra juntos.