4 votos

Pasos de la Multiplicación de la Matriz

Puede parecer una tontería, pero, ¿puede alguien por favor me muestra los pasos intermedios implícita por la segunda igualdad en esta derivación?

$$e^\prime e = \left(y - Xb\right)^\prime\left(y - Xb\right) = y^\prime y - 2b^\prime X^\prime y + b^\prime X^\prime X b.$$

5voto

jldugger Puntos 7490

Muy pocas reglas son realmente necesarios para esta derivación: casi todos los algebraicas (anillo) de los axiomas de los números reales, los axiomas real matrices como un (a la derecha) álgebra sobre los números reales, y las propiedades de la transposición como un anti-isomorfismo de que el álgebra. El único numérico hechos necesarios se utilizan en el último paso.

Puede ser de interés que no hay detalles de la multiplicación de la matriz son necesarios para esta derivación, que muestran que se mantiene en el más general de estadística de la configuración de donde el mismo axiomas de aplicar. Por ejemplo, los números reales pueden ser reemplazados por números complejos; la transposición puede ser reemplazado por Hermitean conjugación; vectores puede ser reemplazado por (ciertos espacios de funciones y matrices operadores lineales. Todos tienen las aplicaciones, pero no hay necesidad de memorizar o volver a probar este resultado en todos los casos diferentes.

Aquí es un boceto de los detalles, asumiendo $e$ es un vector (como es evidente por la forma de la mano derecha). (En un multivariante de los mínimos cuadrados del modelo de $e$ sería una matriz en su propio derecho, pero luego un poco diferente resultado sería.)

  1. $(y-Xb)^\prime = y^\prime - (Xb)^\prime.$ La transposición es una operación lineal.

  2. $(Xb)^\prime = b^\prime X^\prime.$ Transposición es un anti-isomorfismo.

  3. $(y^\prime - b^\prime X^\prime)(y-Xb) = y^\prime (y-Xb) - (b^\prime X^\prime) (y-Xb).$ Esto es debido a que $(B-C)A = B A - C A$ para cualquier matrices $A,B,C$ donde todas las operaciones están definidas. La multiplicación de la matriz es derecho-distributiva. En la aplicación, $A=y-Xb.$

  4. Del mismo modo, $y^\prime (y-Xb) = y^\prime y - y^\prime (Xb)$ e $(b^\prime X^\prime)(y-Xb) = (b^\prime X^\prime)y - (b^\prime X^\prime)(Xb)$ debido a la multiplicación de la matriz a la izquierda de distribución.

  5. $y^\prime(Xb)$ es $1\times 1$ de la matriz y por lo tanto es igual a su propia transposición, $y^\prime (Xb) = (y^\prime(Xb))^\prime.$

  6. Como en $(2),$ $(y^\prime(Xb))^\prime = (Xb)^\prime (y^\prime)^\prime.$

  7. $(y^\prime)^\prime = y.$ Transposición es una involución.

  8. La aplicación de $(2)$ e $(7)$ a $(5)$ e $(6)$ rendimientos $(y^\prime (Xb))^\prime = (b^\prime X^\prime)y.$

  9. Sustituyendo $(8)$ en el primer término en $(4)$ y, a continuación, sustituyendo el resultado en $(3)$ produce $$(y-Xb)^\prime(y-Xb) = (y^\prime y - (b^\prime X^\prime) y) - ((b^\prime X^\prime)y - (b^\prime X^\prime)(Xb)).$$

  10. Por definición, una matriz de diferencia $A-B$ significa que la combinación lineal $(1)A + (-1)B.$ A la luz de esto, la distributiva, asociativa y conmutativa de las leyes de la multiplicación escalar (que son paralelas a las mismas leyes para la multiplicación de números reales) permitir el lado derecho de la $(9)$ a escribirse $$y^\prime y - (1+1)(b^\prime X^\prime)y + (-1)(-1)(b^\prime X^\prime)(Xb).$$

  11. Varias aplicaciones de la ley asociativa de la multiplicación de la matriz muestran que los paréntesis en cualquier secuencia de productos de matriz se puede quitar, porque no importa cómo los productos se agrupan siempre que la orden sigue siendo el mismo. Así, por ejemplo, $(b^\prime X^\prime)(Xb)$ puede ser escrito de forma inequívoca $b^\prime X^\prime X b.$

  12. Finalmente, $1+1=2$ e $(-1)(-1)=1,$ donde $(10)$ puede ser simplificado a $$y^\prime y - 2b^\prime X^\prime y + b^\prime X^\prime X b.$$

1voto

$MSE=(y-Xb)^T(y-Xb)=(y^T-b^TX^T)(y-Xb)=y^Ty-y^TXb-b^TX^Ty+b^TX^TXb$.

A continuación, tenga en cuenta que cada término aquí es escalar, y por lo $y^TXb$, es decir, ($(1\times n)(n \times k)(k \times 1)$), donde $n$ es el número de muestras (puntos de datos), $k$ es el número de regresores, incluidos los prejuicios plazo.

Para escalar términos, podemos tomar la transposición o no, es decir, $\alpha=\alpha^T$. Así, $y^TXb=(y^TXb)^T=b^TX^Ty$, que es el tercer término de arriba. Entonces, MSE se vuelve $y^Ty-2b^TX^Ty+b^TX^TXb$.

Nota: Si usted da información adicional acerca de donde se enfrentó esta ecuación (por ejemplo, la regresión lineal de conferencias, etc.), es mejor adaptarse a este foro; de lo contrario, esta pregunta puede también adaptarse a las matemáticas foro (tal vez mejor), aunque el procedimiento es bastante común en ML para el MSE de cálculo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X