Estoy trabajando en el uso del Método Generalizado de los Momentos para analizar algunos datos de compras de yogur, y al tratar de implementar el método estándar de Hansen (es decir, no un método de verosimilitud empírica), necesito calcular las derivadas primera y segunda de la siguiente función:
$$Q(\theta) = \biggl[\frac{1}{N}\sum_{i=1}^{N}\psi(Z_{i},\theta)\biggr]^{T}C\biggl[\frac{1}{N}\sum_{i=1}^{N}\psi(Z_{i},\theta)\biggr].$$
Aquí, $\psi(Z_{i},\theta)$ es una función vectorial (en mi caso un vector columna de 9 por 1 de las condiciones de momento; se puede pensar en cada componente como una función del parámetro escalar $\theta$ si lo desea). El $Z_{i}$ son los datos de las compras individuales. $C$ es una matriz de pesos derivada de las suposiciones del modelo, pero se puede tratar como la matriz de identidad de tamaño adecuado si se quiere; no debería importar ya que no es una función de $\theta$ .
Si dejo que $$F(\theta) = \biggl[\frac{1}{N}\sum_{i=1}^{N}\psi(Z_{i},\theta)\biggr]$$ para simplificar, entonces el lugar donde me estoy atascando es en el cálculo de la primera y segunda derivada de $Q_{C}$ por ejemplo $\theta$ . Se trata de una función objetivo de valor escalar de una sola variable, por lo que todo lo que se involucra debe ser un escalar.
Basado en el Artículo de Wikipedia sobre el cálculo matricial Aquí está lo que he probado hasta ahora. $$\frac{dQ}{d\theta} = \frac{dQ}{dF}\cdot{}\frac{dF}{d\theta} = \biggl[ F(\theta)^{T}(C+C^{T})\biggr]\cdot{}\biggl[\frac{d}{d\theta}F(\theta)\biggr]$$
A continuación quiero volver a tomar la derivada, así que uso las reglas de la cadena matricial y del producto. En mi caso, sucede que el término final, $\frac{d}{d\theta}F(\theta)$ ya no es una función de $\theta$ (sólo constantes en todos los componentes), por lo que su derivada será cero y sólo tendremos que preocuparnos de la primera parte del producto.
$$\frac{d}{d\theta}\biggl[ F(\theta)^{T}(C+C^{T})\biggr]\cdot{}\biggl[\frac{d}{d\theta}F(\theta)\biggr].$$
Por lo que veo, esto sólo da lugar a lo siguiente: $$ \frac{d}{d\theta}\biggl[ F(\theta)^{T}(C+C^{T})\biggr]\cdot{}\biggl[\frac{d}{d\theta}F(\theta)\biggr] = \biggl(\frac{d}{d\theta}F(\theta) \biggr)^{T}(C+C^{T})\biggl(\frac{d}{d\theta}F(\theta) \biggr).$$
Esto da una buena fórmula, pero cuando uso estos resultados para la primera y segunda derivadas para programar el método de Newton para encontrar el valor de $\theta$ que minimiza la forma cuadrática, el método no converge, y me preocupa que sea porque he calculado mal las derivadas (falta una transposición, o algo así).
Además, se agradecerían enlaces a referencias buenas y claramente escritas que expliquen la lógica del cálculo matricial, especialmente cuándo y por qué se producen las transposiciones. Casi todas las referencias que he podido encontrar en más de 30 minutos de búsqueda en Google eran absolutamente inescrutables y tendían a limitarse a exponer resultados sin ninguna exposición.
2 votos
Maldita sea. Yogur. ¿De verdad?
0 votos
Sí, también estoy trabajando con datos salariales para predecir las decisiones de compra de marcas de yogur en función de los datos salariales. Los datos salariales proceden de un artículo muy conocido, Abowd y Card (1989) "On the Covariance Structure of Earnings and Hours Changes", Econometrica, 57 (2), 441-445. Esta parte del GMM consiste en estimar un parámetro para un modelo autorregresivo sobre los ingresos.
3 votos
Me recuerda a la película "99 francos", en la que un tipo creador de anuncios se volvía loco con la coca y demás porque hacía anuncios para esta empresa de yogures Madone (parodia de Danone). Sabía que hay aplicaciones para lo que hacemos, pero me choca que se utilice para... analizar el mercado del yogur... aunque tenga sentido.
2 votos
Si te hace sentir mejor, la mayor parte del trabajo que hago es estadística computacional bayesiana, así que.. el análisis funcional y la teoría de muestreo de cadenas de Markov. Pero también tengo que pagar las facturas... :)