2 votos

Uso del análisis PCA para seleccionar variables para un análisis de regresión

Tengo demasiadas variables ambientales para utilizarlas en un análisis de regresión múltiple. Si utilizo todas las variables, los modelos son demasiado complejos. El uso de los ejes del ACP en el análisis de regresión era imposible de interpretar (ya que no había una correlación clara con las variables ambientales), por lo que optamos por seleccionar un número limitado de variables, a saber, las que tenían mayor explicación en el ACP.

Se utilizó un ACP para cada conjunto de variables ambientales, es decir, las variables relacionadas con la estructura del arroyo, la vegetación en evolución, el clima, las características físico-químicas del agua del período de verano y del período de invierno, por separado. El PCA se realizó mediante la opción de matriz de correlación, utilizando el software PC-ORD, v. 4.21 (McCune & Mefford 1999). Para cada conjunto de variables, sólo las variables con coordenadas superiores a 0,20, para los dos primeros ejes, del PCA, fueron seleccionadas para ser utilizadas en el análisis de regresión múltiple.

No he podido encontrar literatura que confirme que está bien hacer esto, pero creo que no está mal.

8voto

pauly Puntos 932

En lo que respecta al ACP, relativamente pocos enfoques son objetivamente erróneos. Pero veo dos problemas potenciales en su enfoque. En primer lugar, supongamos que una variable no tiene una carga elevada en ningún componente obtenido. Eso significa que es básicamente independiente de las demás variables del análisis. ¿Significa esto que no contribuirá a su regresión? No necesariamente. Supongamos que llena muy bien "su propio nicho" al explicar parte de la varianza de su resultado. Después de todo, ese resultado no se incluyó en el ACP, ¿verdad?

El uso de los ejes del PCA en el análisis de regresión era imposible de interpretar (ya que no había una correlación clara con las variables ambientales), por lo que optamos por seleccionar un número limitado de variables, a saber, las que tenían mayor explicación en el PCA.

La última parte me parece contradictoria. Si quiere utilizar variables individuales como predictores en lugar de los componentes de bajo rendimiento que resumen las dimensiones en los datos, lo más coherente es ignorar los resultados del ACP al seleccionar los predictores. A usted le importa cómo se relaciona un predictor con el resultado, no asegurarse de que los diferentes predictores estén correlacionados entre sí.

Otra nota: parece que ha realizado o va a realizar múltiples iteraciones de regresión en su intento de encontrar buenos predictores. Es conveniente que lea, en este sitio o en otros, los debates sobre las formas de evitar los escollos que conlleva. Te recomendaría buscar en los posts de este sitio con la etiqueta "selección de variables".

2voto

Xrylite Puntos 111

El artículo más reciente que he visto sobre este problema es

  • Cumming, J.A. y Wooff, D.A. (2007) Dimension reduction via principal variables principales. Estadística computacional y análisis de datos 52: 550-565.

En el capítulo 6 de

  • Jolliffe, I.T. (2002). Análisis de componentes principales . Springer-Verlag, Nueva York, 2ª edición.

1voto

Zizzencs Puntos 1358

Como dijo @Rolando2, aquí sale mucho el tema de la selección de variables.

Pero un método que llega al problema de fondo que tiene con el PCA es el de los mínimos cuadrados parciales; si utiliza SAS, existe el PROC PLS.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X