19 votos

Robusto PCA vs robusto de la distancia de Mahalanobis para la detección de valores atípicos

Robusto PCA (como el desarrollado por Candes et al 2009 o mejor aún Netrepalli et al 2014) es un método popular para la detección de valores atípicos multivariantes, pero la distancia de Mahalanobis también puede ser utilizado para la detección de valores atípicos dado un robusto, regularización de la estimación de la matriz de covarianza. Tengo curiosidad acerca de la (des)ventajas de la utilización de un método sobre el otro.

Mi intuición me dice que la mayor diferencia entre los dos es la siguiente: Cuando el conjunto de datos es "pequeña" (en el sentido estadístico), robusto PCA dará un menor rango de covarianza mientras que las fuertes matriz de covarianza de la estimación que le dará un rango completo de covarianza debido a la Ledoit-Lobo de regularización. ¿Cómo afecta esto a su vez afecta a la detección de valores atípicos?

8voto

Bou Puntos 1859

Este trabajo compara algunos de los métodos en esta área. Se refieren a la Robusta PCA enfoque vinculado a "PCP" (componentes principales la búsqueda) y la familia de métodos vinculados a robusto de covarianza de estimación como el M-estimadores.

Ellos argumentan que

PCP está diseñado de manera uniforme dañado coordenadas de los datos, en lugar de datos dañados puntos (es decir, los valores atípicos), por lo tanto, la comparación con la PCP es un poco injusta para este tipo de datos

y muestran que la PCP (aka robusto PCA) puede fallar para la detección de valores atípicos en algunos casos.

También habla sobre los tres tipos de "enemigos del subespacio de recuperación", es decir, diferentes tipos de valores atípicos, y que tipo de métodos puede hacer bien para tratar con cada uno. La comparación de sus propios valores atípicos con los tres tipos de "enemigos" que se discuten aquí puede ayudarle a escoger un enfoque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X