OK, he estado luchando con un problema similar, como bien. Aquí están algunas conclusiones a las que han llegado.
Se puede ver, para mí el principal problema es que si usted se considera rigurosa corrección de múltiples ensayos o tasa de falso descubrimiento de control, usted necesita preocuparse por el hecho de que todas estas correlaciones de la prueba no son independientes. Usted podría utilizar la corrección de Bonferroni para pruebas múltiples que no se asume que los p-valores corregidos son independientes, pero dado el enorme número de correlaciones para el cálculo de que le dejaría con sólo un par de correlaciones significativas.
También dudo de que en general el caso de que la hipótesis se cumple. Así que más o menos decidí dejar de preocuparse acerca de las suposiciones y tratar las cosas que trabajo de forma fiable, en el sentido de que el postulado de enlaces puede ser validado por separado experimentos o al menos un conjunto de datos de validación.
Así que aquí es lo que yo hago. Podría ser totalmente incorrecta la heurística y el mal, pero (yo) yo lo hago en una generación de hipótesis modo, por lo que me permitía trucos sucios y (ii) que funciona.
En primer lugar, si tengo suficiente de muestras, puedo crear un pequeño (10%) del conjunto de la muestra para fines de validación, seleccionados al azar.
A continuación, me rigurosamente filtro de las variables (genes o lo que sea) utilizando el rango intercuartílico, basado en el filtro. Tengo un pequeño porcentaje de la variación de los genes, al menos en el primer paso.
Entonces puedo crear un conjunto aleatorio de las correlaciones, permutating cada variable. Basado en el permutated conjunto de datos, se selecciona un umbral coeficiente de correlación de cortar la parte superior del 5% o menos de las correlaciones. Yo rara vez uso coeficiente de correlación de Pearson, especialmente desde que a menudo comparar los datos de los diferentes tipos de microarrays o peor aún, completamente distintos tipos de datos (como el proteoma con micro-ARN). Recientemente, empecé a experimentar con la tau de Kendall estadística.
Mi objetivo aquí es estar lo más conservador posible, es decir, en lugar de ir a por un par de cortes limpios correlaciones de muchas correlaciones débiles. Reducir el número de variables a 10% resultados en la reducción del número de coeficientes de correlación para calcular el 1%.
Por último, tengo que calcular las correlaciones para el conjunto de datos original y mantener sólo estos pares para que la absoluta coeficiente de correlación supera la permutación basado en umbral.
Yo uso las correlaciones para agrupar los datos, y una vez que los clusters están firmemente establecidos, me enriquecer con los genes que han sido filtrados en el primer paso.
A continuación, el verdadero trabajo comienza yendo a través de las agrupaciones para (i) identificar biológicamente grupos interesantes (ii) con una hipótesis biológica que puede ser probado en el laboratorio. Y, por supuesto, la validación de los clusters utilizando el 10% de la validación del conjunto de datos.