15 votos

Maximiza el valor de$v^{T}Av$

Deje $A$ ser simétrica real de la matriz. El objetivo es encontrar un vector unitario $v$ de manera tal que el valor de $v^{T}Av$ es 1) maximizada y 2) reducir al mínimo.

La respuesta es que $v$ debe ser el vector propio de a $A$ con: 1) mayor y 2) menor autovalor. Alguien podría dar una explicación de por qué? ¿Qué vectores propios tienen que ver con la maximización de un número?

Por favor, que sea como "paso a paso" como sea posible, expresar un uso muy básico de álgebra (si es posible). No entiendo muy bien MooS' como respuesta.

10voto

MooS Puntos 9198

Existe una matriz ortogonal $T$, de tal manera que $T^tAT$ es diagonal.

Porque de $v^t(T^tAT)v=(Tv)^tA(Tv)$ $\|Tv\|=\|v\|$ puede $A$ asumimos diagonal y en este caso la afirmación es inmediato, ya que $v^tAv = \sum_{i} v_i^2\lambda_i$ $\lambda_i$ siendo los elementos de la diagonal (autovalores).

Permítanme dar algunos detalles más:

Primero de todo, nos muestran $\|Tv\|=\|v\|$: Tenemos $T^tT=1$ (por definición), por lo tanto $$\|Tv\|^2=(Tv)^t(Tv)=v^t(T^tT)v=v^tv=\|v\|^2$$

Para el resto: Debemos tener en cuenta que los números de $v^tAv$ donde $v$ corre a través de todos los vectores de longitud $1$. Desde $T$ es ortogonal, es un bijection en la unidad de la esfera por nuestro argumento anterior, por lo tanto $Tv$ corre a través de todos los vectores de longitud $1$ si $v$ lo hace.

Así considerung los números de $v^tAv$ es el mismo como teniendo en cuenta los números de $(Tv)^tA(Tv)$. Ahora el cálculo $$(Tv)^tA(Tv) = v^t(T^tAT)v$$ shows that we have to consider the numbers $v^t(T^tAT)v$, where $v$ runs through all vectors of length $1$. Since $T^tAT$ is diagonal, we are in the starting situation, but the matrix is diagonal now. So we could have assumed from the start that $$ is diagonal, hence $A = diag(\lambda_1, \dotsc, \lambda_n)$.

Pero en este caso, el resultado es fácil, ya que tenemos $v^tAv = \sum_{i} v_i^2\lambda_i$. Maximizar o minimizar la importancia de esta expresión con respecto a $\sum_i v_i^2=1$ es una tarea fácil: el mínimo es El mínimo de $\lambda_i$ y el máximo es de la máxima $\lambda_i$.

Usted realmente debe acostumbrarse a tales 'diagonalización argumentos": es la principal razón, por qué diagonalizing matrices es una herramienta muy importante.

10voto

David Merrilees Puntos 128

Voy a hacer aquí una muy informal intento de explicar lo que los vectores propios de la menor y el mayor de los autovalores tienen que ver con la minimización de $v^{T}Av$. Tampoco será riguroso tampoco cubrirá todos los casos, pero ciertamente espero que te ilumina.


Descomposiciones

Las Matrices pueden a menudo ser re-expresadas como un producto de dos, tres o más matrices, generalmente elegido tener un "buen" propiedades. Esta re-expresión se denomina descomposición, y el acto de re-expresión se llama descomposición. Hay muchas descomposiciones, y se clasifican por el tipo de "bonita" de las propiedades que el producto resultante matrices tienen. Algunas de estas descomposiciones siempre existen, mientras que algunos sólo son aplicables a algunos tipos de matrices, y algunos van a producir resultados con "mejor" propiedades si su entrada es mejor también.

Eigendecomposition

Estamos aquí estará interesado en uno en particular de descomposición. Se llama la eigendecomposition, o, alternativamente, la descomposición espectral. Se toma una matriz $A$ y se descompone en una matriz de producto $A = Q \Lambda Q^{-1}$. Tanto en $Q$ $\Lambda$ tener el siguiente "agradable" propiedades:

  • $Q$'s columnas contienen los vectores propios de a $A$.
  • $\Lambda$ es una matriz diagonal que contiene, para cada vector propio, los correspondientes autovalores de a $A$.

Bonito propiedades de Eigendecomposition

Como se mencionó anteriormente, la descomposición puede tener más agradable propiedades si ellos tienen buenos entrada. Como sucede, tenemos (muy) buen entrada; $A$ es simétrica y real. Bajo esas condiciones, el resultado de eigendecomposition tiene las siguientes extra "agradable" propiedades:

  • $\Lambda$'s de todas las entradas son números reales.
    • Por lo tanto, los autovalores de a $A$ son números reales.
  • $Q$ es ortogonal.
    • Por lo tanto, $Q$'s columnas los vectores propios, son todos los vectores que son ortogonales a cada uno de los otros. Esto hace que el $Q^{-1}$ matriz fácil de calcular, una vez que usted ha $Q$: Es sólo una $Q^{-1}=Q^{T}$.

La multiplicación de un vector por una matriz

Vamos a cambiar las pistas por un momento. Supongamos ahora que usted tiene un $n$-fila de la matriz de la matriz de $M$. Al llevar a cabo una matriz de vectores multiplicación $v' = Mv$, calcular $n$ dot-productos: $v \cdot M_\textrm{row1}$, $v \cdot M_\textrm{row2}$, ..., $v \cdot M_\textrm{row$n$}$, que se convierten en un nuevo $n$-elemento del vector $v'$.

$$M = \left( \begin{array}{c} M_{\textrm{row$_1$}} \\ M_{\textrm{row$_2$}} \\ \cdots \\ M_{\textrm{fila$_n$}} \end{array} \right)$$ $$v' = Mv = \left( \begin{array}{c} M_{\textrm{row$_1$}} \\ M_{\textrm{row$_2$}} \\ \cdots \\ M_{\textrm{fila$_n$}} \end{array} \right) v = \left( \begin{array}{c} M_{\textrm{row%#%#%}} \cdot v \\ M_{\textrm{row%#%#%}} \cdot v \\ \cdots \\ M_{\textrm{row%#%#%}} \cdot v \end{array} \right)$$

Como ustedes saben, $_1$ donde $_2$ es un vector unitario, calcula la proyección de $_n$ a $a \cdot b$; En otras palabras, ¿cuánto se superponen o sombra unos a otros.

Por lo tanto, haciendo que la matriz de vectores multiplicación $b$, ha re-expresado $a$ en términos de su $b$ proyecciones en el $Mv$ vectores fila de a $v$. Usted puede pensar que, como la re-codificación/re-expresión de compresión/de $n$ de las clases. La palabra "compresión" es particularmente apropiado, ya que parte de la información puede ser perdido; Este será el caso si $n$ no es cuadrado o sus filas no son ortogonales uno al otro.

La multiplicación de un vector por una matriz ortogonal

Pero lo que si $M$ es ortogonal? Entonces todos sus filas son ortogonales entre sí, y si es así, en realidad es posible que no se perderá ninguna información en absoluto al realizar la $v$, y es posible recuperar el vector original $M$$M$$v' = Mv$!

De hecho, tomar una $v$ ortogonal de la matriz $v'$ $M$- elemento del vector, y calcular el $n \times n$. Podrás calcular el $M$ proyecciones de $n$ a de la $v' = Mv$ filas de $n$, y debido a estas filas de $v$ son completamente independientes el uno del otro, las proyecciones de la $n$ (almacenan como elementos de $M$) no contienen información redundante entre sí, y por tanto nada tuvo que ser empujado hacia fuera o dañado para hacer espacio.

Y porque has sin pérdida codificado el vector $M$ como un vector $v$ de las proyecciones en las filas de $v'$, es posible recrear $v$, haciendo a la inversa: la Multiplicación de las filas de $v'$ por las proyecciones en $M$, y la suma de ellos!

Para ello, se debe transponer $v$, ya que estamos a la izquierda-multiplicando $M$$v'$. Mientras que anteriormente tenían las filas de $M$ donde convenientemente quería que ellos (como filas) para hacer la codificación, ahora debemos tenerlos como las columnas en orden para hacer la decodificación de $v'$ a $M$. De dónde obtenemos

$M$$ $v'$$ $v$$ $$v = M^T v'$$

Como un aparte, esta es la razón por la que ortogonal de matrices $$v = M^T (Mv)$ tienen la propiedad de

$$v = (M^T M)v$$

Y de ahí, por qué

$$v = v$$

. Usted recordará que me señaló esta propiedad anterior.

Resumen

Dada una matriz ortogonal $Q$ y el vector $$I = QQ^T = Q^T Q$:

La codificación de $$Q^{-1}=Q^T$ como proyecciones en las filas de $M$ ($v$): $v \to v'$_1$M$_2$}} \\ \cdots \\ M_{\textrm{fila$v' = Mv$}} \end{array} \right)$$ $$M = \left( \begin{array}{c} M_{\textrm{row$_1$}} \\ M_{\textrm{row$_2$}} \\ \cdots \\ M_{\textrm{fila$_n$}} \end{array} \right) v = \left( \begin{array}{c} M_{\textrm{row%#%#%}} \cdot v \\ M_{\textrm{row%#%#%}} \cdot v \\ \cdots \\ M_{\textrm{row%#%#%}} \cdot v \end{array} \right)$$

La decodificación $$v' = Mv = \left( \begin{array}{c} M_{\textrm{row$ multiplicando las filas de $}} \\ M_{\textrm{row$ por las proyecciones sobre ellos, y resumiendo ($_n$). $_1$_1$_2$_2$}}^T & \cdots & M_{\textrm{fila$_n$}}^T \end{array} \right)$$ $v' \to v$_1$M$_2$}}^T & \cdots & M_{\textrm{fila$v = M^{T}v'$}}^T \end{array} \right) v'$$ $$M^T = \left( \begin{array}{c} M_{\textrm{row$_1$}}^T & M_{\textrm{row$_2$}}^T & \cdots & M_{\textrm{fila$_n$}}^T \end{array} \right) \left( \begin{array}{c} M_{\textrm{row%#%#%}} \cdot v \\ M_{\textrm{row%#%#%}} \cdot v \\ \cdots \\ M_{\textrm{row%#%#%}} \cdot v \end{array} \right)$$ $$v = M^{T}v' = \left( \begin{array}{c} M_{\textrm{row$_1$}}^T & M_{\textrm{row$_1$_n$_2$$= \left( \begin{array}{c} M_{\textrm{row$_2$}}^T + \cdots + (M_{\textrm{fila$}}^T & M_{\textrm{row$}} \cdot v)M_{\textrm{fila$_n$}}^T$$ $_1$$

La multiplicación de un vector por una matriz eigendecomposed

Ahora llegamos al quid de mi argumento. Supongamos ahora no tratamos de que la matriz de $_2$ desde hace mucho tiempo como una caja negra, pero en lugar de mirar bajo el capó, en su eigendecomposition $_n$, o en este caso en particular $$= (M_{\textrm{row$. Ver los ortogonal $}} \cdot v)M_{\textrm{row$'s intercalando una matriz diagonal? Bien, $}}^T + (M_{\textrm{row$ tiene vectores propios en sus columnas, por lo $}} \cdot v)M_{\textrm{row$ tendrá en sus filas. Hemos visto cómo un $_n$-$_n$ o $$=v$-$A$ sandwhich esencialmente codifica/decodifica, y estamos aquí de codificación/decodificación de más de $A = Q\Lambda Q^{-1}$'s de vectores propios. El único giro aquí se esta $A = Q\Lambda Q^{T}$ matriz!

Lo que efectivamente hace es que, después de la codificación, pero antes de la decodificación de las escalas de cada uno de los componentes de la codificación del vector de forma independiente, y luego manos a la decodificación de matriz.

Para maximizar $Q$, nuestro objetivo es, por tanto, para elegir a $Q$ que cuando se codifica, toda su energía está en el componente que se escala por el mayor autovalor en $Q^T$! Y ¿cómo podemos lograr esto? Eligiendo a ser el autovector correspondiente al autovalor! Esto maximiza el valor de la dot-producto de ese componente en la etapa de codificación, y este al máximo el gran valor obtiene escala por el mayor autovalor tenemos acceso. Si no somos capaces de alinear el 100% de la energía de la $Q$ con el autovector de mayor autovalor, luego al $Q^T$ será codificado, parte de esa energía va a sangrar a cabo en otros componentes, y se multiplica por una menor autovalor, y no va a ser el máximo posible.

Ejemplo

$Q^T$$ $Q$$

Supongamos que $A$, $\Lambda$, $v^T A v = v^T Q \Lambda Q^T v$. A continuación, el mayor autovalor es $v$, y queremos tener tanto como sea posible (de hecho, todos) de nuestros vector unitario a ampliarse por $\Lambda$. ¿Cómo hacemos eso? Así, podemos elegir el vector unitario paralelo a $v$! A partir de entonces obtenemos

$v$$ Con $$A = Q\Lambda Q^T$, tenemos $$A = \left(\begin{array}{c} \vec e_1 & \vec e_2 & \vec e_3 \end{array}\right) \left(\begin{array}{c} \sigma_1 & 0 & 0 \\ 0 & \sigma_2 & 0 \\ 0 & 0 & \sigma_3 \end{array}\right) \left(\begin{array}{c} \vec e_1^T \\ \vec e_2^T \\ \vec e_3^T \end{array}\right)$$ $\sigma_1 = 2$$ $\sigma_2 = 5$$

Estamos éxito! Debido a nuestra selección de $\sigma_3 = 4$ es paralelo a $\sigma_2$ (el 2º, el autovector), su punto era producto de una perfecta 1, y por lo tanto el 100% de la energía de nuestro vector entró en el segundo componente, el que se multiplicará por $\sigma_2$! Continuamos:

$\vec e_2$$ $$v^T A v = v^T Q \Lambda Q^T v$$

Hemos logrado la máxima ganancia,$v = \vec e_2$, $$= \vec e_2^T \left(\begin{array}{c} \vec e_1 & \vec e_2 & \vec e_3 \end{array}\right) \left(\begin{array}{c} 2 & 0 & 0 \\ 0 & 5 & 0 \\ 0 & 0 & 4 \end{array}\right) \left(\begin{array}{c} \vec e_1^T \\ \vec e_2^T \\ \vec e_3^T \end{array}\right) \vec e_2$!

Una lógica similar se puede aplicar para el caso de que el mínimo autovalor.

9voto

user99914 Puntos 1

Si realmente no te gusta que diagonalización argumento (lo cual es correcto), hay otra con multiplicador de Lagrange (que es bastante interesante en su propio).

Deje $g(v) = |v|^2 -1$. Desea maximizar/minimizar $f(v) = v^TAv$$g(v) = 0$. Así, por el multiplicador de Lagrange, es$\lambda$, de modo que

$$\nabla f = \lambda \nabla g, $$

Nota:$\nabla g(v) = 2v$. Por otro lado, tenemos a $\nabla f = 2Av$

$$\nabla f = A v+ (v^T A)^T = Av + A^T v = 2Av$$

como $A$ es simétrica. Así tenemos a $Av = \lambda v$ $v$ es un autovector. La puesta en $f$, luego

$$f(v) = v^TAv = v^T \lambda v = \lambda$$

por lo que el valor máximo/mínimo de $f$ es alcanzada por los autovalores (y tiene que ser el más grande/más pequeño).

3voto

Voy a intentar explicarlo en el nivel intuitivo como sea posible, con referencia a la teoría - si usted desea profundizar en un aspecto específico, usted puede leer más acerca de él. Mi enfoque es con referencia al álgebra lineal principios detrás de las matrices y vectores, es decir, $A$ representa una transformación lineal...ya que es simétrica tiene una propiedad muy especial, que se explica mejor por la descomposición en tres sencillos matrices (lineal operadores). Este es el hecho, como se ha mencionado antes aquí, que $A=PDP^T$. ¿Qué significa esto en álgebra lineal? La matriz $P^T$ representa un operador ortogonal, es decir, si usted transformar un vector con $P^T$ no cambia el vector de longitud. En 2 de espacio tridimensional $P^T$ es una rotación o una reflexión sobre una línea a través del origen...en dimensiones superiores a estas nociones son generalizadas y $P^T$ podría ser una rotación, pero no de rotación ortogonal transformaciones es más complejo que simplemente "reflexiones". Sin embargo, la clave está en que $P^T$ no cambia la longitud del vector. Esencialmente lo $P^T$ que hace es tomar el vector $v$ y, a continuación, se refiere a ella en un nuevo eje del sistema (cambio de base) de la norma de sistema de coordenadas. Todavía es muy "bonito" eje del sistema en el que el eje principal' son perpendiculares. A continuación, $D$ va a trabajar, de escala/distorsionar la transformación de los vectores $v$ por una cantidad fija a lo largo de cada uno de los ejes de este nuevo sistema de coordenadas - la escala a lo largo de cada eje corresponde a cada diagonal valor en $D$. Finalmente, la transformación de $P$ invierte los efectos de $P^T$ la restauración de la transformación de los vectores de nuevo a la original sistema de coordenadas.

Ahora bien, ¿qué $v^TAv$ significa? En primer lugar, $v^Tv$ es simplemente $\|v\|^2$, la norma de $v$ cuadrado. Si $v$ es un vector unitario, entonces esto va a ser 1. Pero si ahora tenemos $v^TAv$, lo que significa que primero transformar $v$ $A$ es, a continuación, tomar un producto interior por $v$ sobre el nuevo vector de $Av$. Si $v$ cae en un eje en el nuevo sistema de coordenadas inducida por $P^T$, que corresponde a la mayor factor de escala en $D$, $v^T(Av)$ es maximizada desde $D$'s efecto se maximiza....y un argumento similar se tiene para el mínimo.

También si $v$ coincide con un eje en el nuevo sistema de coordenadas de la orientación de $v$ no se cambia por $D$ (ya que los otros factores de escala en $D$ operar perpendicular a el factor de escala correspondiente para el eje sobre el que $v$ cae). Esto implica que el producto interior de $Av$ $v$ está maximizada, ya que el producto interior entre dos vectores se maximiza cuando coinciden (es decir, apuntan en la misma dirección).

Espero que esto ayude...

1voto

davcha Puntos 675

Desde $A$ es real simétrica, usted puede escribir como $A=\sum_{i=1}^n \lambda_i uu^\top$ con $Au_i=\lambda_i u_i$. $\{u_i\}_{i=1}^n$ son vectores propios de a $A$ con autovalor $\lambda_i$.

Ahora, cualquier vector $v$ de la dimensión de $n$ $\|v\|=1$ puede ser escrito $v=\sum_{i=1}^n w_iu_i$$\|w\|=1$.

A continuación, $v^\top A v = \sum_{i=1}^n w_i^2u_i^\top A u_i = \sum_{i=1}^n w_i^2 \lambda_i$.

Por lo tanto, minimizar o maximizar $\sum_{i=1}^n w_i^2\lambda_i$ $w$ de rendimiento estándar de una base de vectores con $1$ en el de coordinar $i$ correspondiente a la menor o mayor autovalor.

Entonces, si se conecta $w$ atrás en la definición de $v$, se puede obtener el más pequeño o el más grande autovector.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X