Tengo un archivo que se puede considerar como una matriz en la que cada fila representa una medida de expresión génica de diferentes muestras (cada columna es una muestra). Quiero encontrar aquellos genes con los patrones de expresión más interesantes entre las muestras. Esto significa que varias muestras tienen un rango de expresión similar, otras pocas muestras tienen otro rango o expresión. Básicamente estoy buscando la variabilidad entre los valores de expresión, pero espero encontrar no sólo una variación aleatoria, sino patrones significativos que puedan ser utilizados para separar mis muestras en grupos biológicamente significativos.
Se me ocurrió esta ingenua idea de usar la desviación estándar en cada fila/gen y encontrar aquellos con mayor desviación estándar. Pero esto no parece ser un buen método en absoluto.
También he pensado en tomar el valor del cuantil 75 y 25 y hacer una simple resta e informar de los que tienen la mayor diferencia, tal vez el 20% de los genes.
Estoy luchando con un método estadísticamente significativo para hacer esto. Tengo la impresión de que este problema se puede encontrar en diferentes contextos y que puede haber algunas herramientas/métodos para abordarlo. ¿Alguien tiene alguna sugerencia o comentario sobre los métodos que he mencionado?