@Niklas explica muy bien las cuestiones básicas en otra respuesta (+1). Aquí hay algunos detalles específicos para el uso de CIBERSORTx . Tú dirás:
Una gran proporción de muestras por tipo de célula es buena para la deconvolución.
Podría decirse mejor:
Una gran proporción de sustancialmente independientes linealmente muestras a tipos de células es bueno para la deconvolución.
Añadir réplicas técnicas no ayuda a ello.
El primer paso de CIBERSORTx, cuyos resultados se transmiten a todos los pasos posteriores, consiste en estimar la fracción de cada tipo celular en cada muestra. Digamos que hay $c$ tipos de células y $k$ muestras. Se utiliza un $b \times c$ matriz $B$ proporcionando los niveles de expresión relativos ya conocidos de $b$ genes que en conjunto distinguen el $c$ tipos de células. A continuación, se toman las filas correspondientes de la matriz de expresión observada $M$ con filas para genes y $k$ columnas para las muestras, y resolver la siguiente ecuación matricial* para obtener una $c \times k$ matriz $F$ relacionados con la fracción de cada tipo de célula en cada muestra:
$$BF=M_{b,\cdot} $$
donde $M_{b,\cdot}$ representa el subconjunto de $M$ que contiene filas de genes incluidos en $B$ .
El primer problema es que, en general, no se puede resolver esa ecuación únicamente para más tipos de células $c$ que tener columnas linealmente independientes en $M_{b,\cdot}$ o filas en $B$ . En esta aplicación, el número de columnas linealmente independientes en $M_{b,\cdot}$ será limitante. Si simplemente se duplican las observaciones de expresión génica para aumentar la $k$ muestras a $2k$ , $M_{b,\cdot}$ todavía tiene como máximo $k$ columnas linealmente independientes. En la medida en que sus réplicas técnicas sean exactas, no habrá ganado nada en cuanto a la estimación de más tipos celulares.
Ahora digamos que su $k$ Las réplicas técnicas no son exactas, sino que han incluido algo de ruido. Es posible que $2k$ columnas en $M_{b,\cdot}$ que son técnicamente independientes linealmente, pero tienen $k$ pares de columnas con cada par altamente correlacionado.
Esto plantea un segundo problema relacionado: multicolinealidad resultante de esta pseudoreplicación con repeticiones técnicas. La multicolinealidad conduce a imprecisiones sustanciales al resolver ecuaciones como la anterior. Como sugiere @Niklas, cuando se intenta ajustar demasiados tipos de células en esa situación se está esencialmente ajustando el ruido. Esto puede afectar negativamente a todos de sus estimaciones de proporción de tipos de células, con detalles que dependen de su conjunto de datos específico.
En la medida en que sus réplicas técnicas no sean exactas e intente utilizarlas para aumentar el número de tipos celulares $c$ para distinguir, sólo aumentas los problemas en la deconvolución. Si tiene verdaderas réplicas técnicas en los estudios de ARNseq, generalmente es mejor añadir los recuentos por gen (con corrección por efectos de lote si es necesario) para obtener réplicas biológicas con mejor precisión y limitarse al número de comparaciones que permiten las réplicas biológicas.
Esta dificultad para obtener una matriz fiable $F$ de las proporciones de tipos celulares entre las muestras es fundamental, porque $F$ se utiliza para deconvolver todos los pasos posteriores de CIBERSORTx que obtienen estimaciones específicas de genes de la expresión por muestra. Es un problema clásico de entrada y salida de basura si $F$ es propenso a errores.
Limitación a 2 "tipos de células"
La pregunta editada indica que usted está interesado en un tipo de célula de interés primario y "todos los demás", para un total de 2 "tipos de células". No estoy seguro de lo bien que funcionará para la deconvolución cuando el tipo de célula "todos los demás" representa un gran número de tipos de células individuales cuyas proporciones podrían diferir de una muestra a otra. No estoy familiarizado con ese aspecto de la literatura, así que asegúrese de que la literatura apoya su enfoque para centrarse en un solo tipo de célula de interés.
Si eso está bien, probablemente siga siendo mejor restringir su análisis a las 7 muestras que se analizaron de forma estándar sin el "procedimiento bioquímico" adicional. Eso puede soportar 2 tipos de células. Sospecho que le costaría convencer a un revisor escéptico de que está bien combinar las 14 muestras, dada la diferencia en los tipos de análisis y el peligro de pseudo-replicación.
Si aún así quiere intentar incluir sus no-replicas técnicas, lo siguiente podría ser defendible.
CIBERSORTx no utiliza las etiquetas sobre condición o "procedimiento bioquímico" en su adaptación. Todo lo que hace es evaluar la expresión génica específica de la muestra, gen por gen, en su tipo celular de interés. Además, el uso de pruebas de "significación" en los pasos del método es esencialmente heurístico, ya que los genes se evalúan individualmente sin tener en cuenta las correlaciones y no parece haber correcciones para comparaciones múltiples. Así pues, las pruebas de diferencias significativas entre condiciones se basan en colocar las muestras en grupos definidos por condición después de que CIBERSORTx proporcione los valores de expresión génica por tipo celular y muestra, y luego evaluar la expresión génica específica del tipo celular entre los dos grupos.
Por lo tanto, podría empezar utilizando las 14 muestras/replicados para la evaluación de la sobreexpresión/subexpresión de genes específica de la muestra en su tipo celular de interés. A continuación, después de CIBERSORTx, restrinja su análisis de las diferencias de expresión génica entre las 2 condiciones a las 7 muestras analizadas sin el "procedimiento bioquímico" añadido. Sus resultados se verían aún más reforzados si se encontraran las mismas diferencias al restringir el análisis posterior a CIBERSORTx a las 7 muestras analizadas con el "procedimiento bioquímico" añadido.
Para encontrar algo significativo con una muestra tan pequeña, se necesitan diferencias bastante grandes y sólidas entre las condiciones. Con 7 valores de resultado diferentes, una prueba no paramétrica de suma de rangos no puede establecer una diferencia entre 4 muestras de un tipo y 3 de otro a p < 0,05, aunque se alineen perfectamente por tipo de muestra:
wilcox.test(1:4,5:7)
#
# Wilcoxon rank sum exact test
#
# data: 1:4 and 5:7
# W = 0, p-value = 0.05714
# alternative hypothesis: true location shift is not equal to 0
Así que tendrá que utilizar pruebas paramétricas.
Posible solución alternativa
No estoy seguro de que CIBERSORTx sea una buena opción para su situación. Incluso en simulaciones ideales como en Figura suplementaria 7c Con una varianza mínima dentro del tipo de célula en la expresión génica para cada una de las 2 condiciones, diferencias de expresión génica de varios pliegues entre condiciones y varios cientos de muestras, el resultado de CIBERSORTx proporcionó estimaciones muy variables por muestra que subestimaban las diferencias globales entre condiciones. Esta página Cross Validated y esta página de Bioinformatics Stack Exchange describir algunos enfoques alternativos.
Como ya conoce las etiquetas de estado de sus muestras, la evaluación de estado por muestra de CIBERSORTx no es de ayuda. En un conjunto de datos más grande, CIBERSORTx puede permitir un aprendizaje posterior no supervisado, pero usted no lo necesita. El ya antiguo csSAM tiene una opción para deconvolver y comparar dos conjuntos de muestras. Parece que ya no se mantiene, pero código fuente está disponible en GitHub. Las instrucciones de instalación proporcionadas no parecen ser correctas, pero con el programa R devtools
instalado y el compilador necesario utilicé ayer con éxito lo siguiente para instalarlo en un Macintosh Intel que ejecuta Catalina:
devtools::install_github('shenorrLabTRDF/csSAM')
*Esto se hace con factorización de matrices no negativas para asegurar que todas las entradas de $F$ son no negativos, pero los principios son los mismos.