Tukey Mediana polaco, se utiliza el algoritmo en la RMA de la normalización de los microarrays. Como usted puede ser consciente de que, los datos de microarrays es bastante ruidoso, por lo que necesitan un modo más sólido de la estimación de la sonda de intensidades teniendo en cuenta las observaciones para todas las sondas y de microarrays. Este es un típico modelo utilizado para la normalización de intensidades de sondas a través de matrices.
$$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$$
$$i=1,\ldots,I \qquad j=1,\ldots, J$$
Donde $Y_{ij}$ $log$ transformado PM intensidad de la $i^{th}$sonda en la $j^{th}$ matriz. $\epsilon_{ij}$ son el ruido de fondo y se puede asumir que corresponden a ruido normal de regresión lineal. Sin embargo, un distributiva de la asunción en $\epsilon$ puede ser restrictivo, por lo que el uso de Tukey Mediana de polaco para obtener las estimaciones para $\hat{\mu_i}$$\hat{\alpha_j}$. Esta es una manera robusta de la normalización a través de matrices, como se nos quiere separar la señal, la intensidad debido a la sonda, a partir de la matriz efecto, $\alpha$. Podemos obtener la señal por la normalización de la matriz efecto $\hat{\alpha_j}$ para todas las matrices. Por lo tanto, estamos sólo a la izquierda con la de la sonda de efectos, además de algunos de ruido aleatorio.
El enlace que he citado antes de los usos de Tukey mediana de polaco para la estimación de los genes expresados diferencialmente o "interesante" de los genes de la clasificación de la sonda de efecto. Sin embargo, el papel es bastante vieja, y probablemente en ese momento la gente estaba todavía tratando de averiguar cómo analizar datos de microarrays. Efron no paramétrica Bayesiana empírica de métodos de papel llegó en 2001, pero probablemente no han sido ampliamente utilizados.
Sin embargo, ahora entendemos mucho acerca de microarrays (estadísticamente) y son bastante seguros sobre su análisis estadístico.
Datos de microarrays es bastante ruidoso y RMA (que utiliza la Mediana polaco) es uno de los más populares métodos de normalización, puede ser debido a su simplicidad. Otros populares y sofisticados métodos son: GCRMA, VSN. Es importante normalizar como el interés es la sonda de efecto y no de la matriz de efectos.
Como se esperaba, el análisis podría haberse beneficiado por algunos de los métodos que tomar ventaja de la información de endeudamiento a través de los genes. Estos pueden incluir, Bayesiano o empírica de los métodos Bayesianos. Puede ser el papel que usted está leyendo es viejo y estas técnicas no estaban a cabo hasta entonces.
Respecto a tu segundo punto, sí lo son, probablemente, la modificación de los datos experimentales. Pero, creo que, esta modificación es para una causa mejor, por tanto, justificable. La razón de ser
a) datos de Microarrays son bastante ruidoso. Cuando el interés es la sonda efecto, la normalización de los datos por número de RMA, GCRMA, VSN, etc. es necesario y se puede tomar ventaja de la especial estructura de los datos es buena. Pero me gustaría evitar hacer la segunda parte. Esto es principalmente porque si no conocemos la estructura antes, es mejor no imponer una gran cantidad de supuestos.
b) la Mayoría de los experimentos de microarrays son exploratorias en su naturaleza, es decir, los investigadores están tratando de reducir a un par de "interesante" genes para su posterior análisis o experimentos. Si estos genes tienen una fuerte señal, modificaciones como normalizaciones no debe (sustancialmente) efecto de los resultados finales.
Por lo tanto, las modificaciones pueden ser justificados. Pero debo observación, la exageración de las normalizaciones puede llevar a resultados equivocados.