7 votos

¿Existen aplicaciones útiles de SVD que utilicen solo los valores singulares más pequeños?

En una serie de aplicaciones de descomposición en valores singulares (SVD), por ejemplo, el Indexado Semántico Latente, solo se utilizan los valores singulares más grandes para realizar búsquedas y calcular distancias.

¿Existen aplicaciones útiles que eliminen los valores singulares más grandes y utilicen solo los más pequeños?

0 votos

Para la regresión de mínimos cuadrados, los valores singulares pequeños son mucho más importantes que los grandes. Eso se debe a que la pseudo-inversa tiene valores singulares correspondientes a 1 dividido por los valores singulares de la matriz original.

8voto

karatchov Puntos 230
  • El análisis de características lentas (SFA) utiliza los eigenvalores más pequeños de la matriz de covarianza de las diferencias temporales para encontrar las características más lentas en una serie de tiempo,
  • El análisis de componentes menores (MCA) utiliza los componentes más pequeños en un entorno probabilístico--aquí, no se encuentran direcciones de variaciones sino restricciones,
  • El análisis de componentes extremas (XCA) es una combinación de PCA probabilístico y MCA,
  • En el Análisis de Correlación Canónica (donde se analiza la correlación entre dos diferentes conjuntos de datos), los componentes más pequeños de la matriz de correlación corresponden a los llamados espacios "privados". Estos representan los subespacios de cada variable que no se correlacionan linealmente entre sí.

5voto

jws121295 Puntos 36

Actúa como un filtro de paso alto en un espacio ligeramente diferente.

Hay mucha data lineal, y en muchos casos estás buscando esa relación lineal, por lo que un filtro de paso bajo (alto bloqueo) te permite retener la parte importante.

Para datos no lineales, generalmente cosas a las que has aplicado métodos simples sin éxito, el paso alto significa que desechas la parte no importante (lineal).

Esto me hace pensar en la fotografía computacional y en el borde. Gracias.

0 votos

Dado que la idea principal detrás de PCA es que tus datos pueden ser vistos como combinaciones lineales de tus eigencomponentes, ¿por qué harías PCA estándar para datos no lineales? Entiendo lo que quieres decir en términos de DSP (así que +1) y creo que tienes razón, pero aún así asumes cierta estacionariedad, etc. (Además, no estaríamos hablando no de los menores eigenvalores, pero está bien...)

0 votos

Cuando se preprocesa el material de PCA es importante "centrar y luego escalar" los datos. Esto elimina la tendencia central. Podrías usar esto para eliminar el componente de "combinaciones lineales en múltiples dimensiones" si ya se tiene en cuenta en otro lugar. ¿Qué tan común es tener en cuenta las combinaciones lineales de los componentes principales? Si hay un alto valor en los componentes de mayor "frecuencia" (o número de onda o lo que sea) - entonces esto generalmente seleccionaría un valor más alto.

0 votos

Lo siento, pero me estás perdiendo más. Centrar los datos X no "elimina las combinaciones lineales en múltiples dimensiones" totalmente. Por lo general, se calculan los eigencomponentes ϕ a partir de la matriz de covarianza C(t,s)=iλϕ(t)ϕ(s) (descomposición espectral). Restas la media para calcular las puntuaciones de proyección A porque sigues un modelo generativo X(t)=μX(t)+iAiϕ(t). Los "componentes principales" son ortogonales entre sí, de lo contrario tendrías no identificabilidad. Estoy de acuerdo con lo que dices sobre la idea de filtros pasa bajos/alta, pero no con tu exposición.

5voto

Calvin Puntos 111

La regresión de mínimos cuadrados totales (también conocida como regresión por distancia ortogonal) utiliza el vector singular que corresponde al menor valor singular de la matriz predictora/criterio aumentada.

Cuando solo hay una variable dependiente (es decir, cuando k=1), tanto la ecuación 12.3-5 en mi Golub & Van Loan (primera edición), como la ecuación final y el código de Octave en la sección "Punto de vista algebraico" de la cuenta estándar, utilizan solo el vector singular que corresponde al menor valor singular para obtener el vector de coeficientes de regresión.

2 votos

¿Podrías ampliar sobre cómo TLS "utiliza" el vector singular más pequeño? Parece que las cuentas estándar de TLS son lo contrario a tu caracterización: los valores singulares más pequeños son reducidos a cero y efectivamente ignorados para obtener el ajuste.

1 votos

Tienes razón. No sé en qué estaba pensando :(

1 votos

Por otro lado, cuando k = 1, tanto la ecuación 12.3-5 en mi Golub & Van Loan (primera edición), como la ecuación final y el código Octave en la sección "Punto de vista Algebraico" de la página a la que enlazaste, parecen usar solo el vector singular correspondiente al valor singular más pequeño para obtener el vector de coeficientes de regresión.

3voto

Akira Puntos 1061

Es un poco exagerado, pero considera el problema de optimización de cartera: minimizar wΣw sujeto a ww1. Puedes pensar en esto como la cartera de varianza mínima con una restricción 2. Después de aplicar el método de Multiplicador de Lagrange, descubres que w debería ser el autovector asociado al valor propio más pequeño de Σ. Dado que Σ típicamente es la covarianza muestral (1/N)1iNXiXi, donde los Xi han sido centrados, puedes ver este problema como un cálculo de SVD donde el vector singular asociado al valor singular más pequeño es importante. Como dije, es un poco exagerado.

1voto

No tengo conocimiento de ninguno. Los valores singulares más pequeños corresponden a modos que no contribuyen mucho a la reconstrucción de la matriz original, o para usar la interpretación de PCA, no describen mucha de la varianza en los datos. Normalmente, los modos con valores singulares más pequeños son simplemente ruido. Esto no descarta la posibilidad de que algo significativo pueda encontrarse en ellos, pero creo que sería altamente dependiente de los datos que conforman la matriz original y, honestamente, bastante improbable.

1 votos

Reconstrucción o la varianza de los datos es solo una de las muchas estadísticas en las que podrías estar interesado.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X