4 votos

Estadísticas de multi-test se replica el análisis de correlación

Estoy analizando pares de correlaciones de las series de tiempo entre dos diferentes tipos de microarrays hecho para varias muestras como repeticiones biológicas.

Así, he M1 número de variables de tipo 1 de la matriz, M2 número de variables en el tipo 2 de la matriz, N muestras y T los puntos de tiempo. Para cada muestra, para calcular M1 x M2 coeficientes de correlación (Pearson o Spearman) y los valores de p mediante T de puntos. Debido a lote efecto entre las muestras no puedo promedio de las mediciones entre los diferentes muestras para cada punto de tiempo.

Mi pregunta es que las estadísticas a utilizar para encontrar los pares de M1 y M2 variables es estadísticamente significativa correlación consistente entre las muestras? Cómo aplicar multi-prueba de corrección? Por favor, ayudar.

1voto

Gmaster Puntos 21

OK, he estado luchando con un problema similar, como bien. Aquí están algunas conclusiones a las que han llegado.

Se puede ver, para mí el principal problema es que si usted se considera rigurosa corrección de múltiples ensayos o tasa de falso descubrimiento de control, usted necesita preocuparse por el hecho de que todas estas correlaciones de la prueba no son independientes. Usted podría utilizar la corrección de Bonferroni para pruebas múltiples que no se asume que los p-valores corregidos son independientes, pero dado el enorme número de correlaciones para el cálculo de que le dejaría con sólo un par de correlaciones significativas.

También dudo de que en general el caso de que la hipótesis se cumple. Así que más o menos decidí dejar de preocuparse acerca de las suposiciones y tratar las cosas que trabajo de forma fiable, en el sentido de que el postulado de enlaces puede ser validado por separado experimentos o al menos un conjunto de datos de validación.

Así que aquí es lo que yo hago. Podría ser totalmente incorrecta la heurística y el mal, pero (yo) yo lo hago en una generación de hipótesis modo, por lo que me permitía trucos sucios y (ii) que funciona.

En primer lugar, si tengo suficiente de muestras, puedo crear un pequeño (10%) del conjunto de la muestra para fines de validación, seleccionados al azar.

A continuación, me rigurosamente filtro de las variables (genes o lo que sea) utilizando el rango intercuartílico, basado en el filtro. Tengo un pequeño porcentaje de la variación de los genes, al menos en el primer paso.

Entonces puedo crear un conjunto aleatorio de las correlaciones, permutating cada variable. Basado en el permutated conjunto de datos, se selecciona un umbral coeficiente de correlación de cortar la parte superior del 5% o menos de las correlaciones. Yo rara vez uso coeficiente de correlación de Pearson, especialmente desde que a menudo comparar los datos de los diferentes tipos de microarrays o peor aún, completamente distintos tipos de datos (como el proteoma con micro-ARN). Recientemente, empecé a experimentar con la tau de Kendall estadística.

Mi objetivo aquí es estar lo más conservador posible, es decir, en lugar de ir a por un par de cortes limpios correlaciones de muchas correlaciones débiles. Reducir el número de variables a 10% resultados en la reducción del número de coeficientes de correlación para calcular el 1%.

Por último, tengo que calcular las correlaciones para el conjunto de datos original y mantener sólo estos pares para que la absoluta coeficiente de correlación supera la permutación basado en umbral.

Yo uso las correlaciones para agrupar los datos, y una vez que los clusters están firmemente establecidos, me enriquecer con los genes que han sido filtrados en el primer paso.

A continuación, el verdadero trabajo comienza yendo a través de las agrupaciones para (i) identificar biológicamente grupos interesantes (ii) con una hipótesis biológica que puede ser probado en el laboratorio. Y, por supuesto, la validación de los clusters utilizando el 10% de la validación del conjunto de datos.

0voto

rds Puntos 301

Yo en realidad no sé la respuesta a esta pregunta, pero me pregunto si algún tipo de bootstrap enfoque sería más manejable. Así: para cada combinación de variables de Tipo 1 y Tipo 2 matrices, seleccionar al azar repeticiones biológicas, y de la medida de correlación a través del tiempo. Hacer esto muchas veces (de cientos a miles debería ser suficiente) para cada combinación de variables, y usted va a obtener estadísticas de las más comunes coeficiente de correlación etc.

Este va a ser un poco computacionalmente intensivo, pero debe ser factible con un escritorio estándar en una escala de tiempo de horas de uso de R y el paquete de arranque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X