11 votos

¿Cuáles son las buenas métricas para evaluar la calidad de un ajuste PCA, con el fin de seleccionar el número de componentes?

¿Cuál es una buena métrica para evaluar la calidad del análisis de componentes principales (ACP)?

He realizado este algoritmo en un conjunto de datos. Mi objetivo era reducir el número de características (la información era muy redundante). Sé que el porcentaje de varianza conservado es un buen indicador de la cantidad de información que conservamos, pero ¿hay otras métricas de información que pueda utilizar para asegurarme de que he eliminado la información redundante y no he "perdido" dicha información?

3 votos

En sentido estricto, no hay información "redundante", a menos que los datos iniciales sean perfectamente colineales. Se suele ver el porcentaje de varianza retenido ("utilizamos los cinco primeros componentes principales, que explican el 90% de la varianza"). Me interesa ver alternativas.

0 votos

Ya que una de tus etiquetas es la teoría de la información: Una forma indirecta de evaluar si PCA funciona es comprobar los supuestos bajo los cuales la teoría de la información nos dice que tiene una baja pérdida de información para una reducción de dimensión dada. Wiki dice que esto es así cuando tus datos son una suma de señal gaussiana más ruido gaussiano. es.wikipedia.org/wiki/

18voto

Rodrigo Guedes Puntos 111

Supongo que parte de esta pregunta se refiere a si existen otras métricas además de la varianza porcentual acumulada (CPV) y el enfoque similar del diagrama de dispersión. La respuesta es, sí, muchos .

Un gran documento sobre algunas opciones es Valle 1999:

Repasa el CPV, pero también el Análisis Paralelo, la Validación Cruzada, la Varianza del Error de Reconstrucción (VRE), los métodos basados en criterios de información, y mucho más. Usted podría seguir la recomendación hecha por el papel después de comparar y utilizar el VRE, pero la validación cruzada basada en la PRENSA también funciona bien en mi experiencia y se obtienen buenos resultados con eso también. En mi experiencia, la VCP es conveniente y fácil, y hace un trabajo decente, pero esos dos métodos suelen ser mejores.

Hay otras formas de evaluar la calidad del modelo PCA si se conocen mejor los datos. Una forma es comparar las cargas estimadas del PCA con las verdaderas si las conoce (lo que haría en las simulaciones). Esto puede hacerse calculando el sesgo de las cargas estimadas con respecto a las verdaderas. Cuanto mayor sea el sesgo, peor será su modelo. Para saber cómo hacerlo, puede consultar este documento donde utilizan este enfoque para comparar métodos. Sin embargo, no se puede utilizar en casos de datos reales, en los que no se conocen las verdaderas cargas del PCA. Esto se refiere menos a cuántos componentes se han eliminado que al sesgo de su modelo debido a la influencia de las observaciones periféricas, pero sigue sirviendo como métrica de la calidad del modelo.

4 votos

3voto

akjoshi Puntos 6711

También hay medidas basadas en criterios teóricos de la información como

MDL de Rissanen (y variaciones)

0 votos

@user:45382 Sí, esa es otra. También se toca en el artículo que enlaza Zhubarb.

0 votos

@Deathkill14 correcto leí el documento, se mencionan las medidas teóricas de la información (de hecho como buenas alternativas)

0 votos

Un excelente documento teórico sobre MDL, MML y Bayesianismo: Vitany & Li, Ideal MDL and Its Relation To Bayesianism citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . También otros métodos de selección de modelos como el AIC y el BIC son implementaciones efectivas del MDL.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X