Processing math: 100%

29 votos

¿Es inestable el ACP en caso de multicolinealidad?

Sé que en una situación de regresión, si tienes un conjunto de variables muy correlacionadas esto suele ser "malo" por la inestabilidad en los coeficientes estimados (la varianza va hacia el infinito a medida que el determinante va hacia cero).

Mi pregunta es si esta "maldad" persiste en una situación de ACP. ¿Los coeficientes/cargas/pesos/vectores propios para cualquier PC particular se vuelven inestables/arbitrarios/no únicos cuando la matriz de covarianza se vuelve singular? Me interesa especialmente el caso en el que sólo se retiene el primer componente principal y todos los demás se descartan como "ruido" o "algo más" o "sin importancia".

No creo que lo haga, porque se quedaría con unos pocos componentes principales que tienen varianza cero o cercana a cero.

Es fácil ver que esto no es así en el caso extremo simple con 2 variables: supongamos que están perfectamente correlacionadas. Entonces la primera PC será la relación lineal exacta, y la segunda PC será perpendicular a la primera PC, con todos los valores de la PC iguales a cero para todas las observaciones (es decir, varianza cero). Me pregunto si es más general.

13voto

kcrumley Puntos 2495

La respuesta podría darse en términos aún más sencillos: la regresión múltiple tiene un paso más que la pca si se ve en términos de álgebra lineal, y desde el segundo paso la inestabilidad viene a la existencia:

El primer paso de la regresión pca y mult. puede verse como la factorización de la matriz de correlación R en dos factores cholesky LLt que son triangulares -y que es indiferente a las correlaciones bajas o altas. (El pca puede verse entonces como una rotación de ese factor cholesky (triangular) a la posición pc (esto se llama rotación de Jacobi, según recuerdo)

El procedimiento de regresión mult. es el de aplicar una inversión de ese factor cholesky L menos la fila y la columna de la variable dependiente, que está convenientemente en la última fila de la matriz de correlación.
Aquí entra en juego la inestabilidad: si las variables independientes están muy correlacionadas, la diagonal del factor cholesky L puede degenerar en valores numéricos muy pequeños - e invertir eso introduce entonces el problema de la división por casi cero.

3voto

Taylor Price Puntos 371

El ACP es a menudo un medio para alcanzar un fin, que conduce a las entradas de una regresión múltiple o para su uso en un análisis de conglomerados. Creo que en tu caso, estás hablando de utilizar los resultados de un PCA para realizar una regresión.

En ese caso, el objetivo de realizar un PCA es deshacerse de la multicolinealidad y obtener entradas ortogonales para una regresión múltiple, no es sorprendente que esto se llame Regresión de Componentes Principales. En este caso, si todas las entradas originales son ortogonales, el ACP le dará otro conjunto de entradas ortogonales. Por lo tanto, si usted está haciendo un PCA, uno asumiría que sus entradas tienen multicolinealidad.

Teniendo en cuenta lo anterior, usted querría hacer PCA para obtener unas pocas variables de entrada de un problema que tiene un número de entradas. Para determinar cuántas de esas nuevas variables ortogonales debe retener, se suele utilizar un diagrama de dispersión (Johnson & Wichern, 2001, p. 445). Si tiene un gran número de observaciones, también puede utilizar la regla general de que con ^λi como el ith El mayor valor propio estimado sólo se utiliza hasta los valores en los que ^λip son mayores o iguales a uno (Johnson & Wichern, 2001, p. 451).

Referencias

Johnson y Wichern (2001). Análisis estadístico multivariante aplicado (6ª edición). Prentice Hall.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X