2 votos

Justificación de la región elíptica de correlaciones en los datos de expresión génica

Estoy analizando un conjunto de datos de RNA seq y estoy intentando ver la correlación entre los valores de expresión de genes significativos en 4 duplicados biológicos diferentes y sus parámetros clínicos.

Aquí, calculo el coeficiente de correlación entre el nivel de mfOXP3 y mis 250 genes significativos y entre el nivel de hFOXP3 y estos mismos 250 genes significativos. Luego grafico los coeficientes de mFOXp3 y contra el coeficiente de hFOXP3 Y tengo este gráfico - una forma elíptica ... (véase más adelante)

Probé con otros parámetros y encontré diferentes formas, pero siempre con forma elíptica.

enter image description here Plot

2voto

jldugger Puntos 7490

Que todos los puntos estén dentro de una elipse es una restricción matemática: por lo demás, no revela nada sobre sus datos.

Generalmente, cuando se tienen dos variables aleatorias (o vectores de datos) $Y$ y $Z$ con una correlación $\rho$ entre ellas, las correlaciones entre una tercera variable $X$ y estos dos están restringidos. Escribiendo estas correlaciones como $\rho_1$ y $\rho_2,$ la matriz de correlaciones de $(X,Y,Z)$ es

$$\pmatrix{1 & \rho_1 & \rho_2 \\ \rho_1 & 1 & \rho \\ \rho_2 & \rho & 1}.$$

Ha trazado el $(\rho_1,\rho_2)$ puntos por $250$ vectores de datos $X.$ (Me parece una idea interesante).

Porque las correlaciones son las covarianzas entre las versiones estandarizadas de esas variables, y las covarianzas son varianzas y las varianzas son las expectativas de los números al cuadrado, todas las matrices de correlación deben ser semidefinida positiva. Criterio de Sylvester permite comprobar esta propiedad. En este caso dice que tenemos que verificar que $1-\rho^2 \ge 0$ y que el determinante de toda la matriz es no negativo. Lo primero es obvio y lo segundo, después de un poco de álgebra fácil, se reduce a la relación

$$ \{(\rho_1,\rho_2) \mid \rho_1^2 + \rho_2^2 - 2\rho\, \rho_1\rho_2\ \le\ 1-\rho^2\}$$

que describe un subconjunto del $(\rho_1,\rho_2)$ avión.

Esto es reconocible como la ecuación de una elipse simétrica y la desigualdad especifica los puntos dentro de ella. Además, puede comprobar que los puntos

$$(1, \rho),\quad (\rho, 1), \quad(-\rho, -1), \quad(-1,-\rho)$$

cumplen esta restricción. Dado que intersecan el límite del cuadrado $[-1,1]\times[-1,1],$ vemos que esta elipse es inscrito en la plaza. Esta elipse aparece en las ilustraciones de https://stats.stackexchange.com/a/71303/919 donde se tratan con mucho más detalle.

Por último, la distribución de los puntos dentro de la elipse puede ser de cierto interés, pero interpretar esa distribución no es fácil, dado lo indirectamente que esta información refleja las relaciones entre las variables. Cualquier asociación entre correlaciones (que son funciones de segundos momentos trivariantes) ya refleja algún tipo de cuarto momentos de orden de los datos. Encontrar una visualización un poco menos alejada de los datos puede ser más perspicaz.

1voto

alexs77 Puntos 36

Básicamente, existe una correlación entre sus correlaciones debido a a) la correlación espontánea entre mFOXP3 y hFOXP3 y b) el uso de la correlaciones parciales para el modelo multivariante de $$\text{GENE} = \alpha + \beta_1 +\text {hFOXP3 } + \beta_2 \text{mFOXP3 } + \epsilon.$$ La parte que falta en las etiquetas de los ejes es la correlación con lo que si ponemos "con $X$ " en el eje x y en la etiqueta del eje y queda claro de inmediato que se trata de un artefacto de utilizar los mismos residuos de un gen concreto para una réplica, así como la correlación endógena entre mFOXP3 y hFOXP3. El hecho de que ambas elipses estén fuertemente centradas en 0 significa que no tenemos ninguna evidencia fuerte de correlación entre m- y h- FOXP3 ni con los genes en los datos: y que la región es inducida por variación aleatoria.

Observamos regiones elípticas similares cuando trazamos los coeficientes de regresión multivariante. A veces una prueba de hipótesis es simultáneamente que $\beta_1 = \beta_2 = 0$ por ejemplo, dar una prueba de significación más sólida en una regresión lineal incluyendo términos lineales y cuadráticos: es decir, para que la nula sea cierta, AMBOS tienen que ser 0.

0voto

user1696584 Puntos 1

Considere lo que no viendo - consistentemente no hay puntos fuertemente anticorrelacionados con mFOXP3 pero fuertemente correlacionados con hFOXP3.

Teniendo en cuenta que estas dos son variaciones sobre un tema para una función subyacente y, por lo tanto, una estructura común, sería sorprendente que su asociación con la expresión de cualquier gen fuera fuerte. en direcciones opuestas .

Se ven algunos puntos en los que la correlación se debilitó o se perdió, lo que tiene sentido - las mutaciones de pérdida de función son razonablemente comunes cuando un receptor deja de recibir, a veces se obtiene cambio de función, pero sería asombrosamente poco probable si un cambio en la estructura invierte directamente el efecto biológico, en lugar de simplemente atascar los engranajes.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X