11 votos

Distancia de Mahalanobis mediante PCA cuando $n<p$

Tengo un $n\times p$ matriz, donde $p$ es el número de genes y $n$ es el número de pacientes. Cualquiera que haya trabajado con estos datos sabe que $p$ es siempre mayor que $n$ . Utilizando la selección de características he conseguido $p$ a un número más razonable, sin embargo $p$ sigue siendo mayor que $n$ .

Me gustaría calcular la similitud de los pacientes en función de sus perfiles genéticos; podría utilizar la distancia euclidiana, pero la distancia de Mahalanobis parece más apropiada porque tiene en cuenta la correlación entre las variables. El problema (como se indica en este Correo electrónico: ) es que la distancia de Mahalanobis, concretamente la matriz de covarianza, no funciona cuando $n < p$ . Cuando ejecuto la distancia de Mahalanobis en R, el error que obtengo es:

 Error in solve.default(cov, ...) :    system is computationally
 singular: reciprocal condition number = 2.81408e-21

Hasta ahora para tratar de resolver esto, he usado PCA y en lugar de usar genes, uso componentes y esto parece permitirme calcular la distancia de Mahalanobis; 5 componentes representan cerca del 80% de la varianza, así que ahora $n > p$ .

Mis preguntas son: ¿Puedo utilizar el PCA para obtener de forma significativa la distancia de Mahalanobis entre los pacientes, o es inapropiado? ¿Existen métricas de distancia alternativas que funcionen cuando $n < p$ y también hay mucha correlación entre los $n$ ¿Variables?

0 votos

El PCA podría romper las correlaciones de las variables, a menos que se utilice algo como una rotación oblicua. Tampoco estoy seguro de cómo el reparto de la varianza en PCA afectará a la distancia de Mahalanobis entre pacientes similares.

0 votos

Si el ACP rompe las correlaciones de las variables, ¿podría utilizar alguna otra métrica de distancia (como la distancia de Pearson) en lugar de la distancia de Mahalanobis?

0 votos

No sé lo suficiente como para recomendar más. Esperaba que alguien más se metiera en la conversación :) Teniendo en cuenta cómo las técnicas de reducción de variables como PCA trabajo, tengo curiosidad por saber si se puede utilizar cualquier métrica de distancia en las salidas.

8voto

Dmitry Laptev Puntos 1846

Si mantiene todos los componentes de un ACP, las distancias euclidianas entre los pacientes en el nuevo espacio del ACP serán iguales a sus distancias de Mahalanobis en el espacio de las variables observadas. Si se omiten algunos componentes, esto cambiará un poco, pero de todos modos. Aquí me refiero a componentes PCA de varianza unitaria, no del tipo cuya varianza es igual al valor propio (no estoy seguro de su implementación de PCA).

Lo que quiero decir es que si se quiere evaluar la distancia de Mahalanobis entre los pacientes, se puede aplicar el PCA y evaluar la distancia euclidiana. Evaluar la distancia de Mahalanobis después de aplicar el PCA me parece algo sin sentido.

1 votos

Aquí hay un breve artículo que discute la relación: Brereton, R. G. The Mahalanobis distance and its relationship to principal component scores Journal of Chemometrics, Wiley-Blackwell, 2015, 29, 143-145. dx.doi.org/10.1002/cem.2692 . Obsérvese que el ACP en quimiometría es por defecto una rotación pura de los datos, por lo que no la versión de variación unitaria a la que se refiere Dmitry.

2voto

Randy Martin Puntos 6

Echa un vistazo al siguiente documento:

Zuber, V., Silva, A. P. D., & Strimmer, K. (2012). Un nuevo algoritmo para la selección simultánea de SNP en estudios de asociación de genoma completo de alta dimensión . BMC bioinformática , 13 (1), 284.

Trata exactamente su problema. Los autores suponen el uso de una nueva variable-medidas de importancia, además de que anteriormente introdujeron un método de estimación penalizado para la matriz de correlación de las variables explicativas que se ajusta a su problema. También utilizan la distancia de Mahalanobis para la descorrelación.

Los métodos están incluidos en el paquete R 'care', disponible en CRAN

0voto

Cherif Diallo Puntos 1

Las puntuaciones del PCA (o los resultados del PCA) se utilizan en la literatura para calcular la distancia de Mahalanobis entre la muestra y una distribución de muestras. Para ver un ejemplo, consulte este artículo . En la sección "Métodos de análisis", los autores afirman:

Los conjuntos de datos de espectros de fluorescencia (681) se reducen a una dimensión inferior (11) mediante la evaluación de los componentes principales (PC) de la matriz de correlación (681×681). Las puntuaciones de los PC se estiman proyectando los datos originales a lo largo de los PC. La clasificación entre los conjuntos de datos se ha realizado utilizando el modelo de distancia de Mahalanobis mediante el cálculo de las distancias de Mahalanobis para las puntuaciones de PC.

He visto otros ejemplos de análisis discriminante basado en la distancia PCA/Mahalanobis en la literatura y en el menú de ayuda del software de quimiometría GRAMS IQ. Esta combinación tiene sentido, ya que la distancia de Mahalanobis no funciona bien cuando el número de variables es mayor que el número de muestras disponibles, y el PCA reduce el número de variables.

Los algoritmos de aprendizaje automático de clasificación de una clase (es decir, Isolation Forest, One-ClassSVM, etc.) son posibles alternativas al análisis discriminante basado en la distancia PCA/Mahalanobis. En nuestro laboratorio, Isolation Forest, combinado con el preprocesamiento de datos, ha dado buenos resultados en la clasificación de los espectros del infrarrojo cercano.

En una nota ligeramente relacionada, la detección de valores atípicos o novedades con la distancia PCA/Mahalanobis, para datos de alta dimensionalidad, a menudo requiere el cálculo de la distancia Mahalanobis corte . Este artículo sugiere que el corte puede ser calculado como el raíz cuadrada del valor crítico de la distribución chi-cuadrado suponiendo que los datos se distribuyen normalmente. Este valor crítico requiere el número de grados de libertad y el valor de probabilidad asociado a los datos. El artículo parece sugerir que el número de componentes principales retenidos es igual al número de grados de libertad necesarios para calcular el valor crítico porque los autores utilizaron el número de características del conjunto de datos para su cálculo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X