1 votos

¿Cuáles son los efectos de añadir réplicas técnicas/pseudo réplicas a las que se van a deconvolver?

Quiero realizar la deconvolución de un pequeño conjunto de datos (3 muestras de unas condiciones frente a 4 de otras). La herramienta CibersortX puede estimar el muestra específica expresión de las células, utilizando los datos de expresión masiva proporcionados, y una matriz de firmas de expresión típica por tipo de célula.

Sufro de un bajo número de muestras. Sin embargo, también tengo una réplica técnica para cada una de las 7. La réplica biológica se sometió a un procedimiento bioquímico y luego se secuenció de nuevo; sin embargo, el procedimiento bioquímico resultó no tener un gran efecto, por lo que es más una réplica técnica que biológica.

Una gran proporción de muestras por tipo de célula es buena para la deconvolución. ¿Cuál sería el efecto de añadir esas réplicas técnicas al conjunto y, a continuación, deconvolverlas utilizando el modo de alta resolución de CibersortX (que genera un valor por muestra)?

¿Cuál sería el efecto de generar pseudoréplicas (tomando las réplicas que tengo y añadiéndoles ruido artificialmente) al conjunto del modo de alta resolución de CibersortX?

Algunos detalles más: tengo la intención de utilizar una matriz de firmas publicada, promediada a dos tipos de células solamente (debido al pequeño número de muestras que tengo): el tipo de célula que es de mi interés primario (por ejemplo Monocitos/Células T) + "Todos los demás". Me interesa encontrar genes expresados diferencialmente en ese tipo celular que me interesa.

1voto

halayangube Puntos 11

¿Podría aclarar su montaje experimental y, en particular, cuáles son exactamente sus réplicas "técnicas"? ¿El tratamiento químico se realizó en el tejido, fue un tratamiento del ARN extraído o fue un tratamiento de las bibliotecas de secuenciación?

Los efectos de añadir muestras adicionales son difíciles de predecir, teniendo en cuenta que estas muestras fueron tratadas. Aunque el efecto no fue fuerte, es difícil calibrar qué significa esto exactamente; supongo que es diferente de la ausencia de efecto. En general, creo que si sus células / tejidos fueron tratados con algo que no tiene ningún efecto, puede incluirlos como réplicas biológicas. Si este tratamiento se realizó sobre ácidos nucleicos, preferiría considerarlos réplicas técnicas.

En general, creo que añadir pseudoréplicas no mejorará los perfiles de expresión en términos de conocimientos biológicos. De hecho, me preocuparía más que se obtuvieran resultados sesgados por la adición de ruido. En general, creo que las pseudoréplicas no pueden mejorar la calidad de los conjuntos de datos biológicos. Si necesita muestras adicionales, debe generar muestras biológicas.

Por supuesto, es básicamente imposible saber cuáles son los efectos sería para su conjunto de datos concreto, ¿ha intentado incluir las muestras o crear pseudoréplicas y comparar los resultados con el conjunto de datos original?

1voto

EdM Puntos 5716

@Niklas explica muy bien las cuestiones básicas en otra respuesta (+1). Aquí hay algunos detalles específicos para el uso de CIBERSORTx . Tú dirás:

Una gran proporción de muestras por tipo de célula es buena para la deconvolución.

Podría decirse mejor:

Una gran proporción de sustancialmente independientes linealmente muestras a tipos de células es bueno para la deconvolución.

Añadir réplicas técnicas no ayuda a ello.

El primer paso de CIBERSORTx, cuyos resultados se transmiten a todos los pasos posteriores, consiste en estimar la fracción de cada tipo celular en cada muestra. Digamos que hay $c$ tipos de células y $k$ muestras. Se utiliza un $b \times c$ matriz $B$ proporcionando los niveles de expresión relativos ya conocidos de $b$ genes que en conjunto distinguen el $c$ tipos de células. A continuación, se toman las filas correspondientes de la matriz de expresión observada $M$ con filas para genes y $k$ columnas para las muestras, y resolver la siguiente ecuación matricial* para obtener una $c \times k$ matriz $F$ relacionados con la fracción de cada tipo de célula en cada muestra:

$$BF=M_{b,\cdot} $$

donde $M_{b,\cdot}$ representa el subconjunto de $M$ que contiene filas de genes incluidos en $B$ .

El primer problema es que, en general, no se puede resolver esa ecuación únicamente para más tipos de células $c$ que tener columnas linealmente independientes en $M_{b,\cdot}$ o filas en $B$ . En esta aplicación, el número de columnas linealmente independientes en $M_{b,\cdot}$ será limitante. Si simplemente se duplican las observaciones de expresión génica para aumentar la $k$ muestras a $2k$ , $M_{b,\cdot}$ todavía tiene como máximo $k$ columnas linealmente independientes. En la medida en que sus réplicas técnicas sean exactas, no habrá ganado nada en cuanto a la estimación de más tipos celulares.

Ahora digamos que su $k$ Las réplicas técnicas no son exactas, sino que han incluido algo de ruido. Es posible que $2k$ columnas en $M_{b,\cdot}$ que son técnicamente independientes linealmente, pero tienen $k$ pares de columnas con cada par altamente correlacionado.

Esto plantea un segundo problema relacionado: multicolinealidad resultante de esta pseudoreplicación con repeticiones técnicas. La multicolinealidad conduce a imprecisiones sustanciales al resolver ecuaciones como la anterior. Como sugiere @Niklas, cuando se intenta ajustar demasiados tipos de células en esa situación se está esencialmente ajustando el ruido. Esto puede afectar negativamente a todos de sus estimaciones de proporción de tipos de células, con detalles que dependen de su conjunto de datos específico.

En la medida en que sus réplicas técnicas no sean exactas e intente utilizarlas para aumentar el número de tipos celulares $c$ para distinguir, sólo aumentas los problemas en la deconvolución. Si tiene verdaderas réplicas técnicas en los estudios de ARNseq, generalmente es mejor añadir los recuentos por gen (con corrección por efectos de lote si es necesario) para obtener réplicas biológicas con mejor precisión y limitarse al número de comparaciones que permiten las réplicas biológicas.

Esta dificultad para obtener una matriz fiable $F$ de las proporciones de tipos celulares entre las muestras es fundamental, porque $F$ se utiliza para deconvolver todos los pasos posteriores de CIBERSORTx que obtienen estimaciones específicas de genes de la expresión por muestra. Es un problema clásico de entrada y salida de basura si $F$ es propenso a errores.

Limitación a 2 "tipos de células"

La pregunta editada indica que usted está interesado en un tipo de célula de interés primario y "todos los demás", para un total de 2 "tipos de células". No estoy seguro de lo bien que funcionará para la deconvolución cuando el tipo de célula "todos los demás" representa un gran número de tipos de células individuales cuyas proporciones podrían diferir de una muestra a otra. No estoy familiarizado con ese aspecto de la literatura, así que asegúrese de que la literatura apoya su enfoque para centrarse en un solo tipo de célula de interés.

Si eso está bien, probablemente siga siendo mejor restringir su análisis a las 7 muestras que se analizaron de forma estándar sin el "procedimiento bioquímico" adicional. Eso puede soportar 2 tipos de células. Sospecho que le costaría convencer a un revisor escéptico de que está bien combinar las 14 muestras, dada la diferencia en los tipos de análisis y el peligro de pseudo-replicación.

Si aún así quiere intentar incluir sus no-replicas técnicas, lo siguiente podría ser defendible.

CIBERSORTx no utiliza las etiquetas sobre condición o "procedimiento bioquímico" en su adaptación. Todo lo que hace es evaluar la expresión génica específica de la muestra, gen por gen, en su tipo celular de interés. Además, el uso de pruebas de "significación" en los pasos del método es esencialmente heurístico, ya que los genes se evalúan individualmente sin tener en cuenta las correlaciones y no parece haber correcciones para comparaciones múltiples. Así pues, las pruebas de diferencias significativas entre condiciones se basan en colocar las muestras en grupos definidos por condición después de que CIBERSORTx proporcione los valores de expresión génica por tipo celular y muestra, y luego evaluar la expresión génica específica del tipo celular entre los dos grupos.

Por lo tanto, podría empezar utilizando las 14 muestras/replicados para la evaluación de la sobreexpresión/subexpresión de genes específica de la muestra en su tipo celular de interés. A continuación, después de CIBERSORTx, restrinja su análisis de las diferencias de expresión génica entre las 2 condiciones a las 7 muestras analizadas sin el "procedimiento bioquímico" añadido. Sus resultados se verían aún más reforzados si se encontraran las mismas diferencias al restringir el análisis posterior a CIBERSORTx a las 7 muestras analizadas con el "procedimiento bioquímico" añadido.

Para encontrar algo significativo con una muestra tan pequeña, se necesitan diferencias bastante grandes y sólidas entre las condiciones. Con 7 valores de resultado diferentes, una prueba no paramétrica de suma de rangos no puede establecer una diferencia entre 4 muestras de un tipo y 3 de otro a p < 0,05, aunque se alineen perfectamente por tipo de muestra:

wilcox.test(1:4,5:7)
# 
#   Wilcoxon rank sum exact test
# 
# data:  1:4 and 5:7
# W = 0, p-value = 0.05714
# alternative hypothesis: true location shift is not equal to 0

Así que tendrá que utilizar pruebas paramétricas.

Posible solución alternativa

No estoy seguro de que CIBERSORTx sea una buena opción para su situación. Incluso en simulaciones ideales como en Figura suplementaria 7c Con una varianza mínima dentro del tipo de célula en la expresión génica para cada una de las 2 condiciones, diferencias de expresión génica de varios pliegues entre condiciones y varios cientos de muestras, el resultado de CIBERSORTx proporcionó estimaciones muy variables por muestra que subestimaban las diferencias globales entre condiciones. Esta página Cross Validated y esta página de Bioinformatics Stack Exchange describir algunos enfoques alternativos.

Como ya conoce las etiquetas de estado de sus muestras, la evaluación de estado por muestra de CIBERSORTx no es de ayuda. En un conjunto de datos más grande, CIBERSORTx puede permitir un aprendizaje posterior no supervisado, pero usted no lo necesita. El ya antiguo csSAM tiene una opción para deconvolver y comparar dos conjuntos de muestras. Parece que ya no se mantiene, pero código fuente está disponible en GitHub. Las instrucciones de instalación proporcionadas no parecen ser correctas, pero con el programa R devtools instalado y el compilador necesario utilicé ayer con éxito lo siguiente para instalarlo en un Macintosh Intel que ejecuta Catalina:

devtools::install_github('shenorrLabTRDF/csSAM') 

*Esto se hace con factorización de matrices no negativas para asegurar que todas las entradas de $F$ son no negativos, pero los principios son los mismos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X