El PCA resume la estructura de covarianza de los datos del conjunto de entrenamiento y, por tanto, reflejará toda la varianza presente en ese conjunto. Ningún método lo hará, pero tiene sus puntos fuertes, aunque el más importante es el manejo de patrones y la identificación de patrones inusuales, que por desgracia no es lo que usted está describiendo. Parece que está hablando de eventos raros limitados a una variable, pero PCA puede hacer mucho.
Los valores atípicos plantean dos problemas
1)en la formación/calibración. ¿Alguna muestra presenta una varianza que no está bien representada en todo el conjunto de datos? Si sólo una muestra presenta un comportamiento, su modelo PCA no describirá ese comportamiento de forma fiable. Existen muchos métodos para identificar este tipo de problemas, como el de Hotelling $T^2$ distancia al modelo, apalancamiento, residuos (estos dos últimos pueden utilizarse en función de la muestra o de la variable). Es un tema candente, y ninguna respuesta es universalmente aplicable. En mi opinión, si alguna variación no está bien descrita, las muestras deben eliminarse o el experimento debe rediseñarse, ya que, de lo contrario, se crea un elemento poco fiable en el modelo que se comportará de forma impredecible en nuevos conjuntos de datos, ya que no se conoce bien su varianza ni su covarianza con todo lo demás.
2) en la prueba/validación/aplicación. A
Nuestra consideración es que el PCA descuidará esta característica y cuando >reduzcamos el número de columnas después del PCA (digamos que tomamos >el 95% de los datos) la anomalía "desaparecerá".
No si se utiliza correctamente el PCA, si se mira más allá de los vectores propios básicos en las métricas mencionadas anteriormente se vería algún comportamiento de este tipo. Cuando unas pocas muestras o variables son anómalas y causan una influencia excesiva en el modelo, a menudo son detectables en el apalancamiento, mientras que los residuos son buenos para asegurar que la variación de muestras o variables específicas ha sido contabilizada por el número de PCs elegido.
Si el problema es que se trata de un evento raro que se quiere manejar específicamente con el modelo, entonces el problema es si se ha potenciado el estudio lo suficiente como para obtener una estimación fiable de su comportamiento, no un problema con el PCA en sí. También se pueden hacer cosas con el Diseño de Experimento para asegurar que se captura la máxima varianza relevante con un conjunto de datos eficiente.
¿Se desaconseja el uso de PCA para encontrar anomalías? o nos estamos perdiendo algo?
Yo diría que hay que fomentar el uso del ACP para encontrar anomalías, pero hay que explorar toda la gama de herramientas para buscar diferentes tipos de anomalías. Sin embargo, las anomalías pueden reflejar un diseño de estudio inadecuado para la variación de interés.