Estoy tratando de calcular la derivada de (Y−Xβ)TP(Y−Xβ) donde P es una matriz definida positiva. Las dimensiones reales de cada elemento no se dan en la especificación de la pregunta, pero como se trata de minimizar β para el análisis de regresión, creo que X es mxn, β∈Rn y Y∈Rm . En primer lugar, amplío la expresión,
(Y−Xβ)TP(Y−Xβ)=(YTP−βTXTP)(Y−Xβ)=YTPY−YTPXβ−βTXTPY+βTXTPXβ
Ahora tomo la derivada para wrt β . Para el término final, estoy utilizando que es una forma cuadrática y creo que estoy asumiendo XTPX es simétrica. Sólo estoy usando identidades en - https://en.wikipedia.org/wiki/Matrix_calculus De todos modos lo entiendo,
−YTPX−YTPX+2βTXTPX=−2YTPX+2βTXTPX
Desde aquí, puedo equiparar a 0 y tomar la transposición, para resolver β (asumiendo que todo es invertible por ahora, no te preocupes).
βTXTPX=YTPX⟺XTPXβ=XTPY⟺β=(XTPX)−1XTPY
Las soluciones lo resuelven de forma ligeramente diferente. Dijeron desde entonces, (Y−Xβ)TP(Y−Xβ) ya es una forma cuadrática, podemos usarla para calcular la derivada como −XT2P(Y−Xβ)=−2XTPY+2XTPXβ . Como puedes ver, esto es lo mismo que mi derivada, pero transpuesta. Por supuesto, una vez que transpongo para resolver para β Pero no es así y obtenemos la misma solución final. Tengo dos preguntas.
-
¿Es el método que he hecho incorrecto, es decir, si la pregunta era sólo calcular la derivada lo he hecho mal. Si es así, ¿podría indicarme dónde he cometido el error?
-
Podría alguien recomendar alguna bibliografía/página web que explique el proceso que siguieron las soluciones para tomar la derivada al detectar que era una forma cuadrática.
¡Muchas gracias!