Deje $X, Y$ ser de dos variables aleatorias, con $X$ tomando valores en $\Bbb R^n$ $Y$ tomando valores en $\Bbb R$.
A continuación, podemos ver la función $h: \Bbb R^n \to \Bbb R$ dada por $$\beta \mapsto \Bbb E[(Y-X^T\beta)^2]$$ It is claimed that the gradient of $h$ is given by $$\nabla h = \Bbb E[2X(X^T\beta-Y)]$$
Esto parece como un caso especial de la identidad
$$\nabla \Bbb E[f]=\Bbb E [\nabla f]$$
Donde la expectativa es tomado a través de la mutua de distribución de algunas variables aleatorias.
Formalmente, queremos que la siguiente: Supongamos $X_1,...,X_m$ son variables aleatorias devolver valores en algunos de los conjuntos de $A_i$ con algún mutuo de distribución de probabilidad. A continuación, para cada función de $f: \Bbb R^n \times \prod A_i \to \Bbb R$, para cada $\beta \in \Bbb R^n$ podemos formar la variable aleatoria $f(\beta, X_1,...,X_m)$ y llevar a sus expectativas. Tomando diferentes valores de $\beta$ da lugar a una función de $\Bbb R^n \to \Bbb R$. Pretendemos que su pendiente es igual al vector obtenido por primera fijación de los valores de $X_1,...,X_m$ y tomando el gradiente resultante de la función de $\Bbb R^n \to \Bbb R$, y esto le da una variable aleatoria devolver valores en $\Bbb R^n$, para lo cual puede tomar la expectativa.