9 votos

El uso de la mediana de polaco para la selección de características

En un papel que estaba leyendo hace poco me encontré con el siguiente bit en su análisis de los datos de la sección:

La tabla de datos se dividió en los tejidos y líneas celulares, y los dos subtablas fueron por separado mediana pulido (las filas y las columnas eran de forma iterativa, ajustado para tener la mediana 0) antes de ser vuelto a unir en una única tabla. Finalmente hemos seleccionado para el subconjunto de genes cuya expresión se modifique por lo menos 4 veces a partir de la media de este conjunto de la muestra en al menos tres de las muestras analizadas

Tengo que decir que realmente no seguir el razonamiento aquí. Me preguntaba si me podrias ayudar a contestar las siguientes dos preguntas:

  1. ¿Por qué es deseable/útil para ajustar la mediana en los conjuntos de datos? ¿Por qué debería ser hecho por separado para los diferentes tipo de muestras?

  2. Cómo es esto de no modificar los datos experimentales? Es esta una forma conocida de escoger un número de genes y/o variables de un conjunto grande de datos, o es más bien ad hoc?

Gracias,

7voto

merriam Puntos 67

Tukey Mediana polaco, se utiliza el algoritmo en la RMA de la normalización de los microarrays. Como usted puede ser consciente de que, los datos de microarrays es bastante ruidoso, por lo que necesitan un modo más sólido de la estimación de la sonda de intensidades teniendo en cuenta las observaciones para todas las sondas y de microarrays. Este es un típico modelo utilizado para la normalización de intensidades de sondas a través de matrices.

$$Y_{ij} = \mu_{i} + \alpha_{j} + \epsilon_{ij}$$ $$i=1,\ldots,I \qquad j=1,\ldots, J$$

Donde $Y_{ij}$ $log$ transformado PM intensidad de la $i^{th}$sonda en la $j^{th}$ matriz. $\epsilon_{ij}$ son el ruido de fondo y se puede asumir que corresponden a ruido normal de regresión lineal. Sin embargo, un distributiva de la asunción en $\epsilon$ puede ser restrictivo, por lo que el uso de Tukey Mediana de polaco para obtener las estimaciones para $\hat{\mu_i}$$\hat{\alpha_j}$. Esta es una manera robusta de la normalización a través de matrices, como se nos quiere separar la señal, la intensidad debido a la sonda, a partir de la matriz efecto, $\alpha$. Podemos obtener la señal por la normalización de la matriz efecto $\hat{\alpha_j}$ para todas las matrices. Por lo tanto, estamos sólo a la izquierda con la de la sonda de efectos, además de algunos de ruido aleatorio.

El enlace que he citado antes de los usos de Tukey mediana de polaco para la estimación de los genes expresados diferencialmente o "interesante" de los genes de la clasificación de la sonda de efecto. Sin embargo, el papel es bastante vieja, y probablemente en ese momento la gente estaba todavía tratando de averiguar cómo analizar datos de microarrays. Efron no paramétrica Bayesiana empírica de métodos de papel llegó en 2001, pero probablemente no han sido ampliamente utilizados.

Sin embargo, ahora entendemos mucho acerca de microarrays (estadísticamente) y son bastante seguros sobre su análisis estadístico.

Datos de microarrays es bastante ruidoso y RMA (que utiliza la Mediana polaco) es uno de los más populares métodos de normalización, puede ser debido a su simplicidad. Otros populares y sofisticados métodos son: GCRMA, VSN. Es importante normalizar como el interés es la sonda de efecto y no de la matriz de efectos.

Como se esperaba, el análisis podría haberse beneficiado por algunos de los métodos que tomar ventaja de la información de endeudamiento a través de los genes. Estos pueden incluir, Bayesiano o empírica de los métodos Bayesianos. Puede ser el papel que usted está leyendo es viejo y estas técnicas no estaban a cabo hasta entonces.

Respecto a tu segundo punto, sí lo son, probablemente, la modificación de los datos experimentales. Pero, creo que, esta modificación es para una causa mejor, por tanto, justificable. La razón de ser

a) datos de Microarrays son bastante ruidoso. Cuando el interés es la sonda efecto, la normalización de los datos por número de RMA, GCRMA, VSN, etc. es necesario y se puede tomar ventaja de la especial estructura de los datos es buena. Pero me gustaría evitar hacer la segunda parte. Esto es principalmente porque si no conocemos la estructura antes, es mejor no imponer una gran cantidad de supuestos.

b) la Mayoría de los experimentos de microarrays son exploratorias en su naturaleza, es decir, los investigadores están tratando de reducir a un par de "interesante" genes para su posterior análisis o experimentos. Si estos genes tienen una fuerte señal, modificaciones como normalizaciones no debe (sustancialmente) efecto de los resultados finales.

Por lo tanto, las modificaciones pueden ser justificados. Pero debo observación, la exageración de las normalizaciones puede llevar a resultados equivocados.

3voto

mohamadreza Puntos 131

Parece que usted está leyendo un papel que tiene algunos genes de expresión diferencial de análisis. De haber realizado algunas investigaciones que involucran microarrays de chips, puedo compartir lo poco conocimiento (esperemos que bien) me tienen sobre el uso de la mediana polaco.

Utilizando la mediana de la polaca durante el resumen del paso de los microarrays de preprocesamiento es algo de una manera estándar para deshacerse de los datos de los valores atípicos con la combinación perfecta de la sonda sólo fichas (al menos para RMA).

La mediana de polaco para los datos de microarrays es donde tienes el chip efecto y la sonda de efecto como sus filas y columnas:

para cada conjunto de sondas (compuesto de un número n de la misma sonda) en x fichas:

         chip1    chip2    chip3   ...  chipx
probe1      iv       iv       iv   ...     iv
probe2      iv       iv       iv   ...     iv 
probe3      iv       iv       iv   ...     iv
...
proben      iv       iv       iv   ...     iv

donde iv son los valores de intensidad de

Debido a la variabilidad de la sonda de intensidad, casi todos los análisis de datos de microarrays se preprocesa el uso de algún tipo de corrección de fondo y la normalización antes de resumen.

aquí hay algunos enlaces a la bioC lista de correo de los hilos que hablan sobre el uso de la mediana polaco vs otros métodos:

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004752.html

https://stat.ethz.ch/pipermail/bioconductor/2004-May/004734.html

Los datos de los tejidos y líneas celulares son generalmente analizados por separado, porque cuando las células se cultivan sus perfiles de expresión de un cambio dramático en la recogida de muestras de tejido. Sin tener más del papel es difícil decir si o no el procesamiento de las muestras por separado, era apropiado.

La normalización, la corrección de fondo, y el resumen de los pasos en el análisis de la tubería son todas las modificaciones de los datos experimentales, pero en su estado no procesado, el chip efectos, los efectos de lote, el procesamiento de efectos eclipsan cualquier señal para el análisis. Estos experimentos de microarrays de generar listas de genes que son candidatos para el seguimiento de los experimentos (qPCR, etc) para confirmar los resultados.

En cuanto a ser ad hoc, pregunte a 5 personas lo veces la diferencia es necesaria para que un gen se considera expresados diferencialmente y que vendrá con al menos 3 respuestas diferentes.

0voto

Alan Puntos 7273

Usted puede encontrar algunas pistas en las páginas 4 y 5 de este

Es un método de cálculo de los residuos para el modelo $$y_{i,j} = m + a_i + b_j + e_{i,j}$$ mediante el cálculo de los valores de $m$, $a_i$ y $b_j$, de modo que si el $e_{i,j}$ son tabulados, la mediana de cada fila y de cada columna es 0.

El enfoque más convencional cantidades para calcular los valores para los $m$, $a_i$ y $b_j$, de modo que la media (o suma) de cada fila y de cada columna de los residuos es 0.

La ventaja de utilizar la mediana es de solidez a un pequeño número de valores atípicos; la desventaja es que usted está desechando potencialmente útil la información si no hay valores atípicos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X