Supongo que parte de esta pregunta se refiere a si existen otras métricas además de la varianza porcentual acumulada (CPV) y el enfoque similar del diagrama de dispersión. La respuesta es, sí, muchos .
Un gran documento sobre algunas opciones es Valle 1999:
Repasa el CPV, pero también el Análisis Paralelo, la Validación Cruzada, la Varianza del Error de Reconstrucción (VRE), los métodos basados en criterios de información, y mucho más. Usted podría seguir la recomendación hecha por el papel después de comparar y utilizar el VRE, pero la validación cruzada basada en la PRENSA también funciona bien en mi experiencia y se obtienen buenos resultados con eso también. En mi experiencia, la VCP es conveniente y fácil, y hace un trabajo decente, pero esos dos métodos suelen ser mejores.
Hay otras formas de evaluar la calidad del modelo PCA si se conocen mejor los datos. Una forma es comparar las cargas estimadas del PCA con las verdaderas si las conoce (lo que haría en las simulaciones). Esto puede hacerse calculando el sesgo de las cargas estimadas con respecto a las verdaderas. Cuanto mayor sea el sesgo, peor será su modelo. Para saber cómo hacerlo, puede consultar este documento donde utilizan este enfoque para comparar métodos. Sin embargo, no se puede utilizar en casos de datos reales, en los que no se conocen las verdaderas cargas del PCA. Esto se refiere menos a cuántos componentes se han eliminado que al sesgo de su modelo debido a la influencia de las observaciones periféricas, pero sigue sirviendo como métrica de la calidad del modelo.
3 votos
En sentido estricto, no hay información "redundante", a menos que los datos iniciales sean perfectamente colineales. Se suele ver el porcentaje de varianza retenido ("utilizamos los cinco primeros componentes principales, que explican el 90% de la varianza"). Me interesa ver alternativas.
0 votos
Ya que una de tus etiquetas es la teoría de la información: Una forma indirecta de evaluar si PCA funciona es comprobar los supuestos bajo los cuales la teoría de la información nos dice que tiene una baja pérdida de información para una reducción de dimensión dada. Wiki dice que esto es así cuando tus datos son una suma de señal gaussiana más ruido gaussiano. es.wikipedia.org/wiki/