¿Cuáles son las buenas métricas para evaluar la calidad de un ajuste PCA, con el fin de seleccionar el número de componentes?

Question

¿Cuáles son las buenas métricas para evaluar la calidad de un ajuste PCA, con el fin de seleccionar el número de componentes?

Preguntado el 27 de Mayo, 2014: Cuando se hizo la pregunta
565 visitas: Cuantas visitas ha tenido la pregunta
2 Respuestas: Cuantas respuestas ha tenido la pregunta
Resuelta: Estado actual de la pregunta

¿Cuál es una buena métrica para evaluar la calidad del análisis de componentes principales (ACP)?

He realizado este algoritmo en un conjunto de datos. Mi objetivo era reducir el número de características (la información era muy redundante). Sé que el porcentaje de varianza conservado es un buen indicador de la cantidad de información que conservamos, pero ¿hay otras métricas de información que pueda utilizar para asegurarme de que he eliminado la información redundante y no he "perdido" dicha información?

Preguntado el 27 de Mayo, 2014 por bigTree

3 votos

En sentido estricto, no hay información "redundante", a menos que los datos iniciales sean perfectamente colineales. Se suele ver el porcentaje de varianza retenido ("utilizamos los cinco primeros componentes principales, que explican el 90% de la varianza"). Me interesa ver alternativas.

Comentado el 27 de Mayo, 2014 por icelava

0 votos

Ya que una de tus etiquetas es la teoría de la información: Una forma indirecta de evaluar si PCA funciona es comprobar los supuestos bajo los cuales la teoría de la información nos dice que tiene una baja pérdida de información para una reducción de dimensión dada. Wiki dice que esto es así cuando tus datos son una suma de señal gaussiana más ruido gaussiano. es.wikipedia.org/wiki/

Comentado el 27 de Mayo, 2014 por CloseToC

Answer 1

2 Respuestas

Answer 2

18voto

Rodrigo Guedes Puntos 111

Supongo que parte de esta pregunta se refiere a si existen otras métricas además de la varianza porcentual acumulada (CPV) y el enfoque similar del diagrama de dispersión. La respuesta es, sí, muchos .

Un gran documento sobre algunas opciones es Valle 1999:

Selección del número de componentes principales: La varianza del criterio de error de reconstrucción con una comparación con otros métodos

Sergio Valle, Weihua Li y S. Joe Qin, Industrial & Engineering Chemistry Research 1999 38 (11), 4389-4401

Repasa el CPV, pero también el Análisis Paralelo, la Validación Cruzada, la Varianza del Error de Reconstrucción (VRE), los métodos basados en criterios de información, y mucho más. Usted podría seguir la recomendación hecha por el papel después de comparar y utilizar el VRE, pero la validación cruzada basada en la PRENSA también funciona bien en mi experiencia y se obtienen buenos resultados con eso también. En mi experiencia, la VCP es conveniente y fácil, y hace un trabajo decente, pero esos dos métodos suelen ser mejores.

Hay otras formas de evaluar la calidad del modelo PCA si se conocen mejor los datos. Una forma es comparar las cargas estimadas del PCA con las verdaderas si las conoce (lo que haría en las simulaciones). Esto puede hacerse calculando el sesgo de las cargas estimadas con respecto a las verdaderas. Cuanto mayor sea el sesgo, peor será su modelo. Para saber cómo hacerlo, puede consultar este documento donde utilizan este enfoque para comparar métodos. Sin embargo, no se puede utilizar en casos de datos reales, en los que no se conocen las verdaderas cargas del PCA. Esto se refiere menos a cuántos componentes se han eliminado que al sesgo de su modelo debido a la influencia de las observaciones periféricas, pero sigue sirviendo como métrica de la calidad del modelo.

Respondido el 27 de Mayo, 2014 por Rodrigo Guedes (111 Puntos )

4 votos

Enlace a Papel de Valle, Li y Qin

Comentado el 27 de Mayo, 2014 por Zhubarb

Answer 3

3voto

akjoshi Puntos 6711

También hay medidas basadas en criterios teóricos de la información como

MDL de Rissanen (y variaciones)

Respondido el 27 de Mayo, 2014 por akjoshi (6711 Puntos )

0 votos

@user:45382 Sí, esa es otra. También se toca en el artículo que enlaza Zhubarb.

Comentado el 27 de Mayo, 2014 por Rodrigo Guedes

0 votos

@Deathkill14 correcto leí el documento, se mencionan las medidas teóricas de la información (de hecho como buenas alternativas)

Comentado el 27 de Mayo, 2014 por akjoshi

0 votos

Un excelente documento teórico sobre MDL, MML y Bayesianismo: Vitany & Li, Ideal MDL and Its Relation To Bayesianism citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.56.8580 . También otros métodos de selección de modelos como el AIC y el BIC son implementaciones efectivas del MDL.

Comentado el 11 de Octubre, 2018 por danzkusuma

¿Cuáles son las buenas métricas para evaluar la calidad de un ajuste PCA, con el fin de seleccionar el número de componentes?

Respuestas

Preguntas Destacadas

Etiquetas mas usadas

i-Ciencias.com

Powered by:

¿Cuáles son las buenas métricas para evaluar la calidad de un ajuste PCA, con el fin de seleccionar el número de componentes?

Respuestas

Preguntas relacionadas

Preguntas Destacadas

Etiquetas mas usadas

En nuestra red

i-Ciencias.com

Powered by: