3 votos

Bajo qué condiciones el agrupamiento sobre Componentes Principales podría dar un resultado diferente (y peor) que el agrupamiento en los datos mismos?

Dado que los componentes principales capturan la mayor parte de la información, el agrupamiento en ellos debería proporcionar un resultado similar al del agrupamiento en los datos originales.

Por lo tanto, parece para mí (que no soy estadístico, pero interesado de todos modos) que los componentes principales estarían mejor adaptados para mostrar agrupaciones existentes de forma nativa ya que la colinealidad se eliminaría.

Pero ¿hay situaciones en las que el agrupamiento en CPs puede no ser tan bueno y proporcionar resultados peores que el conjunto de datos original?

Puedo pensar en una situación en la que, al tener muchas columnas correlacionadas y el clúster teniendo que estar sesgado hacia este componente, podría dar como resultado un peor resultado. ¿Es esto algo común? Si es así, me parece como distribuir pesos sin realmente entenderlo.

¿Puede un experto arrojar algo de luz para entender intuitivamente?

0 votos

y el clúster debe estar sesgado hacia este componente ¿Qué significa eso?

1voto

Amadiere Puntos 5606

Es común escalar los datos al hacer PCA.

Por lo general, se utilizan los valores propios para escalar cada componente por $1/\sqrt{\lambda_i}$.

Cualquier reescalado de los datos tiene un efecto masivo en los resultados.

PCA puede servir como una heurística si tienes muchas (preferiblemente continuas - el uso de PCA en atributos binarios es cuestionable) atributos de diferentes escalas, y

  1. esperas que existan correlaciones fuertes en los datos
  2. no tienes información sobre cómo reescalar y ponderar adecuadamente los atributos individuales

En el raro escenario donde todos los atributos tienen la misma importancia y escala, PCA se vuelve mucho más fundamentado. Como regla general: si una varianza de $x$ en cada atributo tiene la misma importancia exacta (digamos porque los atributos son coordenadas en tu cámara de medición) entonces el uso de PCA está fuertemente respaldado por la teoría. Si el atributo 1 es la talla de zapato y el atributo 2 es ingresos, entonces PCA se verá arruinado por las diferencias de escala y los valores atípicos en los ingresos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X