Dado que los componentes principales capturan la mayor parte de la información, el agrupamiento en ellos debería proporcionar un resultado similar al del agrupamiento en los datos originales.
Por lo tanto, parece para mí (que no soy estadístico, pero interesado de todos modos) que los componentes principales estarían mejor adaptados para mostrar agrupaciones existentes de forma nativa ya que la colinealidad se eliminaría.
Pero ¿hay situaciones en las que el agrupamiento en CPs puede no ser tan bueno y proporcionar resultados peores que el conjunto de datos original?
Puedo pensar en una situación en la que, al tener muchas columnas correlacionadas y el clúster teniendo que estar sesgado hacia este componente, podría dar como resultado un peor resultado. ¿Es esto algo común? Si es así, me parece como distribuir pesos sin realmente entenderlo.
¿Puede un experto arrojar algo de luz para entender intuitivamente?
0 votos
y el clúster debe estar sesgado hacia este componente
¿Qué significa eso?