20 votos

Componentes de baja varianza en PCA, ¿son realmente sólo ruido? ¿Hay alguna forma de comprobarlo?

Intento decidir si un componente de un PCA debe conservarse o no. Hay un gazillion de criterios basados en la magnitud del eigenvalue, descrito y comparado e.g. aquí o aquí .

Sin embargo, en mi aplicación sé que el valor propio pequeño(est) será pequeño comparado con el valor propio grande(st) y los criterios basados en la magnitud rechazarían todos el pequeño(est). Esto no es lo que quiero. Lo que me interesa es lo siguiente: ¿se conoce algún método que tenga en cuenta el componente correspondiente real del pequeño valor propio, en el sentido de si se trata "sólo" de ruido, como se da a entender en todos los libros de texto, o si queda "algo" de interés potencial? Si realmente es ruido, elimínelo, de lo contrario manténgalo, independientemente de la magnitud del valor propio.

¿Existe algún tipo de prueba de aleatoriedad o distribución establecida para los componentes en PCA que no soy capaz de encontrar? ¿O alguien sabe de una razón por la que esto sería una idea tonta?

Actualización

Histogramas (verde) y aproximaciones normales (azul) de los componentes en dos casos de uso: una vez probablemente realmente ruido, otra probablemente no "sólo" ruido (sí, los valores son pequeños, pero probablemente no aleatorios). El valor singular más grande es ~160 en ambos casos, el más pequeño, es decir, este valor singular, es 0,0xx - demasiado pequeño para cualquiera de los métodos de corte.

Lo que busco es una manera de formalizar esta ...

probably really "just" noise probably not noise but may contain interesting bits

25voto

Nick Stauner Puntos 8220

Una forma de comprobar la aleatoriedad de un componente principal (CP) pequeño es tratarlo como una señal en lugar de como ruido: es decir, intentar predecir otra variable de interés con él. Se trata esencialmente de regresión de componentes principales (PCR) .

En el contexto predictivo de la PCR, Lott (1973) recomienda seleccionar las PC de forma que se maximice $R^2$ Gunst y Mason (1977) se centran en $MSE$ . Los PC con valores propios pequeños (¡incluso los más pequeños!) pueden mejorar las predicciones (Hotelling, 1957; Massy, 1965 Hawkins, 1973; Hadi y Ling, 1998 ; Jackson, 1991) y han resultado muy interesantes en algunas aplicaciones predictivas publicadas ( Jolliffe, 1982 , 2010 ) . Entre ellas:

  • Un modelo de ingeniería química que utiliza los PC 1, 3, 4, 6, 7 y 8 de un total de 9 ( Smith y Campbell, 1980 )
  • Un modelo monzónico que utiliza las PC 8, 2 y 10 (por orden de importancia) sobre 10 ( Kung y Sharif, 1980 )
  • Un modelo económico que utiliza las PC 4 y 5 de 6 (Hill, Fomby y Johnson, 1977)

Los PC de los ejemplos anteriores están numerados según el tamaño de sus valores propios. Jolliffe (1982) describe un modelo de nube en el que el último componente es el que más contribuye. Y concluye:

Los ejemplos anteriores han demostrado que no es necesario encontrar datos oscuros o extraños para que los últimos componentes principales sean importantes en la regresión de componentes principales. Más bien parece que tales ejemplos pueden ser bastante comunes en la práctica. Hill et al. (1977) ofrecen un análisis exhaustivo y útil de las estrategias de selección de componentes principales que debería haber enterrado para siempre la idea de una selección basada únicamente en el tamaño de la varianza. Por desgracia, esto no parece haber sucedido, y la idea está quizá más extendida ahora que hace 20 años.

Además, excluir las PC de valor propio pequeño puede introducir sesgos (Mason & Gunst, 1985) . Hadi y Ling (1998) recomiendan considerar la regresión $SS$ resumen así su artículo:

La conclusión básica de este artículo es que, en general, los PC pueden no explicar el ajuste de la regresión. Como se indica en el Teorema 1, es teóricamente posible que el primer $(p-1)$ Las PC, que pueden tener casi el 100% de la varianza, no contribuyen nada al ajuste, mientras que la variable de respuesta $\text{Y}$ puede encajar perfectamente en el último PC, que siempre es ignorado por la metodología PCR.

La razón del fracaso de la PCR a la hora de explicar la variación de la variable de respuesta es que los PC se eligen basándose en la PCD [descomposición de componentes principales] que sólo depende de $\text{X}$ . Así pues, si se va a utilizar la RCP, debe hacerse con cautela y la selección de los PC que deben mantenerse debe guiarse no sólo por la descomposición de la varianza, sino también por la contribución de cada componente principal a la suma de cuadrados de la regresión.

Debo esta respuesta a @Scortchi, que corrigió mis propias ideas erróneas sobre la selección de PC en la PCR con algunos comentarios muy útiles, entre ellos " Jolliffe (2010) revisa otras formas de seleccionar PC". Esta referencia puede ser un buen lugar para buscar más ideas.

Referencias

- Gunst, R. F., y Mason, R. L. (1977). Biased estimation in regression: an evaluation using mean squared error. Revista de la Asociación Estadística Americana, 72 (359), 616-628.
- Hadi, A. S., y Ling, R. F. (1998). Some cautionary notes on the use of principal components regression. The American Statistician, 52 (1), 15-19. Obtenido de http://www.uvm.edu/~rsingle/stat380/F04/possible/Hadi+Ling-AmStat-1998_PCRegression.pdf .
- Hawkins, D. M. (1973). On the investigation of alternative regressions by principal component analysis. Estadística aplicada, 22 (3), 275-286.
- Hill, R. C., Fomby, T. B., & Johnson, S. R. (1977). Component selection norms for principal components regression. Comunicaciones en Estadística - Teoría y Métodos, 6 (4), 309-334.
- Hotelling, H. (1957). The relations of the newer multivariate statistical methods to factor analysis. Revista Británica de Psicología Estadística, 10 (2), 69-79.
- Jackson, E. (1991). Guía del usuario de componentes principales . Nueva York: Wiley.
- Jolliffe, I. T. (1982). Note on the use of principal components in regression. Estadística aplicada, 31 (3), 300-303. Obtenido de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2082.pdf .
- Jolliffe, I. T. (2010). Análisis de componentes principales (2ª ed.). Springer.
- Kung, E. C., y Sharif, T. A. (1980). Regression forecasting of the onset of the Indian summer monsoon with antecedent upper air conditions. Revista de Meteorología Aplicada, 19 (4), 370-380. Obtenido de http://iri.columbia.edu/~ousmane/print/Onset/ErnestSharif80_JAS.pdf .
- Lott, W. F. (1973). The optimal set of principal component restrictions on a least-squares regression. Comunicaciones en Estadística - Teoría y Métodos, 2 (5), 449-464.
- Mason, R. L., y Gunst, R. F. (1985). Selección de componentes principales en regresión. Cartas de Estadística y Probabilidad, 3 (6), 299-301.
- Massy, W. F. (1965). Regresión de componentes principales en la investigación estadística exploratoria. Revista de la Asociación Estadística Americana, 60 (309), 234-256. Obtenido de http://automatica.dei.unipd.it/public/Schenato/PSC/2010_2011/gruppo4-Building_termo_identification/IdentificazioneTermodinamica20072008/Biblio/Articoli/PCR%20vecchio%2065.pdf .
- Smith, G., y Campbell, F. (1980). A critique of some ridge regression methods. Revista de la Asociación Estadística Americana, 75 (369), 74-81. Obtenido de https://cowles.econ.yale.edu/P/cp/p04b/p0496.pdf .

3voto

felipeduque Puntos 105

Además de la respuesta de @Nick Stauner, cuando se trata de agrupaciones subespaciales, PCA suele ser una mala solución.

Cuando se utiliza el ACP, lo que más interesa son los vectores propios con los valores propios más altos, que representan las direcciones hacia las que los datos se "estiran" más. Si sus datos se componen de subespacios pequeños, PCA los ignorará solemnemente, ya que no contribuyen mucho a la varianza global de los datos.

Por tanto, los vectores propios pequeños no siempre son puro ruido.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X