4 votos

R: ¿cómo hacer inferencia estadística sobre múltiples variables dependientes e independientes?

En el pasado he realizado modelos de regresión múltiple por separado para muchas variables independientes correlacionadas y una variable dependiente . Para ello he utilizado el paquete R multtest ( http://www.bioconductor.org/packages/release/bioc/html/multtest.html ). Esto me permitió calcular valores p ajustados que tenían en cuenta la estructura de correlación de mi matriz de variables independientes.

Ahora, quiero hacer lo mismo pero para varias variables dependientes también. Dicho de otro modo, tengo una matriz Y con mis variables dependientes y una matriz X con mis variables independientes. A partir de esto quiero estimar Modelos de regresión X*Y . Lo más importante es que quiero que el valores p ajustados para tener en cuenta la estructura de correlación de las variables independientes y dependientes. Espero sus sugerencias. Ya he sugerido a los autores de multtest que amplíen su biblioteca para acomodar este caso, pero todavía no ha sucedido.

Ejemplo (añadido): Digamos que tengo datos de expresión génica de 10 tejidos diferentes. Ahora quiero saber si la expresión génica está correlacionada con 100 SNPs diferentes. Esto significa que estoy probando efectivamente 100*10 = 1000 hipótesis. Sin embargo, todas estas hipótesis no son independientes entre sí. Los SNPs podrían estar correlacionados entre sí debido al desequilibrio de ligamiento y la expresión génica también podría estar correlacionada entre diferentes tejidos, dependiendo de su similitud. Por lo tanto, una corrección de Bonferroni de mis valores p para estas 1000 pruebas estadísticas sería demasiado conservadora. Estoy buscando una manera de derivar valores p ajustados que tengan en cuenta las dependencias descritas anteriormente tanto en las variables independientes como en las dependientes .

1voto

gskalinskii Puntos 118

En mi investigación utilizo la modelización de ecuaciones estructurales para predecir varias variables dependientes a partir de muchas variables independientes.

Que yo sepa, el SEM es el único análisis estadístico que puede predecir varias IV sobre varias VD al mismo tiempo (es decir, controlando unas por otras).

Se puede hacer SEM con bastante facilidad con el paquete lavaan en R (ver: http://lavaan.ugent.be/tutorial/sem.html ).

Así que me imagino que en tu ejemplo podrías tener un código como este en lavaan: model <- 'GeneExpressionATissue1 ~ SNP1+SNP2... GeneExpressionATissue2 ~ SNP1+SNP2... SNP1 ~~ SNP2+SNP3+SNP4... [Los SNP no son independientes entre sí] '

fit <- sem(modelo, datos = XXX) summary(fit, estandarizado = TRUE)

Utilizando el SEM, se puede especificar que los SNPs (IVs) no son independientes, y la expresión génica (DVs) tampoco lo es. Y, puede probar todas las hipótesis al mismo tiempo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X