Una forma de comprobar la aleatoriedad de un componente principal (CP) pequeño es tratarlo como una señal en lugar de como ruido: es decir, intentar predecir otra variable de interés con él. Se trata esencialmente de regresión de componentes principales (PCR) .
En el contexto predictivo de la PCR, Lott (1973) recomienda seleccionar las PC de forma que se maximice $R^2$ Gunst y Mason (1977) se centran en $MSE$ . Los PC con valores propios pequeños (¡incluso los más pequeños!) pueden mejorar las predicciones (Hotelling, 1957; Massy, 1965 Hawkins, 1973; Hadi y Ling, 1998 ; Jackson, 1991) y han resultado muy interesantes en algunas aplicaciones predictivas publicadas ( Jolliffe, 1982 , 2010 ) . Entre ellas:
- Un modelo de ingeniería química que utiliza los PC 1, 3, 4, 6, 7 y 8 de un total de 9 ( Smith y Campbell, 1980 )
- Un modelo monzónico que utiliza las PC 8, 2 y 10 (por orden de importancia) sobre 10 ( Kung y Sharif, 1980 )
- Un modelo económico que utiliza las PC 4 y 5 de 6 (Hill, Fomby y Johnson, 1977)
Los PC de los ejemplos anteriores están numerados según el tamaño de sus valores propios. Jolliffe (1982) describe un modelo de nube en el que el último componente es el que más contribuye. Y concluye:
Los ejemplos anteriores han demostrado que no es necesario encontrar datos oscuros o extraños para que los últimos componentes principales sean importantes en la regresión de componentes principales. Más bien parece que tales ejemplos pueden ser bastante comunes en la práctica. Hill et al. (1977) ofrecen un análisis exhaustivo y útil de las estrategias de selección de componentes principales que debería haber enterrado para siempre la idea de una selección basada únicamente en el tamaño de la varianza. Por desgracia, esto no parece haber sucedido, y la idea está quizá más extendida ahora que hace 20 años.
Además, excluir las PC de valor propio pequeño puede introducir sesgos (Mason & Gunst, 1985) . Hadi y Ling (1998) recomiendan considerar la regresión $SS$ resumen así su artículo:
La conclusión básica de este artículo es que, en general, los PC pueden no explicar el ajuste de la regresión. Como se indica en el Teorema 1, es teóricamente posible que el primer $(p-1)$ Las PC, que pueden tener casi el 100% de la varianza, no contribuyen nada al ajuste, mientras que la variable de respuesta $\text{Y}$ puede encajar perfectamente en el último PC, que siempre es ignorado por la metodología PCR.
La razón del fracaso de la PCR a la hora de explicar la variación de la variable de respuesta es que los PC se eligen basándose en la PCD [descomposición de componentes principales] que sólo depende de $\text{X}$ . Así pues, si se va a utilizar la RCP, debe hacerse con cautela y la selección de los PC que deben mantenerse debe guiarse no sólo por la descomposición de la varianza, sino también por la contribución de cada componente principal a la suma de cuadrados de la regresión.
Debo esta respuesta a @Scortchi, que corrigió mis propias ideas erróneas sobre la selección de PC en la PCR con algunos comentarios muy útiles, entre ellos " Jolliffe (2010) revisa otras formas de seleccionar PC". Esta referencia puede ser un buen lugar para buscar más ideas.
Referencias
- Gunst, R. F., y Mason, R. L. (1977). Biased estimation in regression: an evaluation using mean squared error. Revista de la Asociación Estadística Americana, 72 (359), 616-628.
- Hadi, A. S., y Ling, R. F. (1998). Some cautionary notes on the use of principal components regression. The American Statistician, 52 (1), 15-19. Obtenido de http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Estadística aplicada, 22 (3), 275-286.
- Hill, R. C., Fomby, T. B., & Johnson, S. R. (1977). Component selection norms for principal components regression. Comunicaciones en Estadística - Teoría y Métodos, 6 (4), 309-334.
- Hotelling, H. (1957). The relations of the newer multivariate statistical methods to factor analysis. Revista Británica de Psicología Estadística, 10 (2), 69-79.
- Jackson, E. (1991). Guía del usuario de componentes principales . Nueva York: Wiley.
- Jolliffe, I. T. (1982). Note on the use of principal components in regression. Estadística aplicada, 31 (3), 300-303. Obtenido de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, I. T. (2010). Análisis de componentes principales (2ª ed.). Springer.
- Kung, E. C., y Sharif, T. A. (1980). Regression forecasting of the onset of the Indian summer monsoon with antecedent upper air conditions. Revista de Meteorología Aplicada, 19 (4), 370-380. Obtenido de http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, W. F. (1973). The optimal set of principal component restrictions on a least-squares regression. Comunicaciones en Estadística - Teoría y Métodos, 2 (5), 449-464.
- Mason, R. L., y Gunst, R. F. (1985). Selección de componentes principales en regresión. Cartas de Estadística y Probabilidad, 3 (6), 299-301.
- Massy, W. F. (1965). Regresión de componentes principales en la investigación estadística exploratoria. Revista de la Asociación Estadística Americana, 60 (309), 234-256. Obtenido de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G., y Campbell, F. (1980). A critique of some ridge regression methods. Revista de la Asociación Estadística Americana, 75 (369), 74-81. Obtenido de https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .