En este contexto particular, de la PCA se utiliza principalmente para dar cuenta de la población específica de las variaciones en la distribución de los alelos del Snp (o de otros marcadores de ADN, aunque sólo estoy familiarizado con el SNP caso) bajo investigación. Tales "subestructura de la población", principalmente surge como consecuencia de la variación de las frecuencias de los alelos menores genéticamente distantes ancestros (por ejemplo, japonés y negro-africano o europeo-americana). La idea general está muy bien explicado en la Estructura de la Población y Eigenanalysis, por Patterson et al. (PLoS Genetics 2006, 2(12)), o el Lancet's edición especial sobre la epidemiología genética (2005, 366; la mayoría de los artículos se pueden encontrar en la web, inicie con Cordell & Clayton, Estudios de Asociación Genética).
La construcción de los ejes principales de la siguiente manera, desde el enfoque clásico de la PCA, que se aplica a la escala de la matriz (individuos por SNPs) de los genotipos (AA, AB, BB; decir que B es el alelo menor en todos los casos), con la excepción de que un adicional de normalización para dar cuenta de la población a la deriva puede ser aplicado. Se asume que la frecuencia del alelo menor (tomando el valor de {0,1,2}) puede ser considerado como numérico, que trabajamos bajo un modelo aditivo (también llamado alélica dosis) o de cualquier otro equivalente que tendría sentido. Como las sucesivas ortogonal Pc tendrá en cuenta la máxima varianza, esto proporciona una manera de resaltar grupos de individuos que difieren en el nivel de la frecuencia del alelo menor. El software utilizado para esto es conocido como Eigenstrat. También está disponible en la egscore()
función de la GenABEL paquete de R (ver también GenABEL.org). Vale la pena notar que otros métodos para detectar la subestructura de la población se han propuesto, en particular, basado en el modelo de clúster de reconstrucción (ver referencias al final). Más información se puede encontrar navegando por el Hapmap project, y disponible tutorial que viene de la Bioconductor proyecto. (Búsqueda de Vince J Carey o David Clayton buenos tutoriales en Google).
Aparte de la agrupación subpoblaciones, este enfoque también puede ser utilizado para la detección de valores atípicos que puedan surgir en dos casos (AFAIK): (a) errores de genotipado, y (b) cuando se trabaja con una población homogénea (o asumido de modo que, dada la auto-reporte de la etnia), los individuos que exhiben inesperado genotipo. Lo que se suele hacer en este caso es la aplicación de PCA en forma iterativa, y quitar a los individuos cuyas puntuaciones están por debajo de $\pm 6$ SD de al menos uno de los 20 primeros ejes principales; esto equivale a "blanquear" la muestra, en algún sentido. Tenga en cuenta que cualquier medida de este tipo de genotipo distancia (esto también se aplica cuando se utiliza el Escalamiento Multidimensional en lugar de PCA) permitirá detectar los parientes o hermanos. El plink software proporciona métodos adicionales, consulte la sección sobre la estratificación de la Población en la ayuda en línea.
Teniendo en cuenta que eigenanalysis permite descubrir algunas de estructura en el nivel de los individuos, podemos utilizar esta información cuando se trata de explicar las variaciones observadas en un determinado fenotipo (o cualquier distribución que podría ser definido de acuerdo a un criterio binario, por ejemplo, una enfermedad o caso-control de la situación). Específicamente, podemos ajustar nuestro análisis con los Equipos (es decir, el factor de las puntuaciones de los individuos), como se ilustra en el análisis de componentes Principales corrige para la estratificación en estudios de asociación de genoma, por Price et al. (La naturaleza Genética de 2006, 38(8)), y más tarde de trabajo (no fue una buena foto que muestra los ejes de la variación genética en Europa, pero no puedo encontrar lo que realmente [Esto es, en http://goo.gl/jNXx0x y la imagen que puede referirse podría ser en http://goo.gl/TcK3g8]). Tenga en cuenta también que otra solución es llevar a cabo un análisis estratificado (incluyendo el grupo étnico en un GLM)--esto es fácilmente disponible en el snpMatrix paquete, por ejemplo.
Referencias
- Daniel Falush, Mateo Stephens, y Jonathan K Pritchard (2003). La inferencia de la estructura de la población mediante el genotipo multilocus de datos: los loci ligados y se correlacionaron las frecuencias de los alelos. La genética, 164(4): 1567-1587.
- B Devlin y K Roeder (1999). Genómica de control para los estudios de asociación. La biometría, 55(4): 997-1004.
- JK Pritchard, M Stephens, y P Donnelly (2000). La inferencia de la estructura de la población el uso de datos de genotipo multilocus. La genética, 155(2): 945-959.
- Gang Zhen, Boris Freidlin, Zhaohai Li, y José L Gastwirth (2005). Genómica de control para los estudios de asociación en virtud de los diversos modelos genéticos. La biometría, 61(1): 186-92.
- Chao Tian, Peter K. Gregersen, y Michael F. Seldin1 (2008). La contabilidad de ascendencia: subestructura de la población y de todo el genoma estudios de asociación. Genética Molecular Humana, 17(R2): R143-R150.
- Kai Yu, Subestructura de la Población y Selección de Control en Estudios de Asociación de Genoma.
- Alkes L. Precio, Noé A. Zaitlen, David Reich y Nick Patterson (2010). Nuevos enfoques para la estratificación de la población en estudios de asociación de genoma, Nature Reviews Genetics
- Chao Tian, et al. (2009). Europea de Genética de la Población de la Subestructura: la nueva Definición de Ascendencia Marcadores Informativos para Distinguir entre los Diversos Europeo de Grupos Étnicos, Medicina Molecular, 15(11-12): 371-383.