Estoy estudiando el Aprendizaje de Máquina, pero creo que ustedes deben ser capaces de ayudarme con esto!
Básicamente, hemos dado un conjunto de datos de entrenamiento $\{(x_1,y_1), x(x_2,y_2), ..., (x_n, y_n)\}$, y tenemos que entrenar a un tipo perceptrón para ajustar los datos de la mejor forma posible. Un tipo perceptrón aquí, es un modelo simple que consiste en un vector de peso $w$, y el tipo perceptrón salidas $w^Tx$, para una entrada $x$.
Definimos una función de error $ E(w) = \frac{1}{2N} \sum_{i=1}^{N}(t_d - o_d)^2$ donde $t_d - o_d$ es simplemente la diferencia entre el ideal de valor de la meta, y nuestra salida, $w^Tx$.
Una manera de minimizar el error para el cálculo del gradiente, y obtenemos
$\frac{\partial E}{\partial w_i} = \frac{1}{N} \sum_{i=1}^{N}(t_d - o_d)(-x_{id})$
Ahora, en un algoritmo de computadora, puedo, en cada iteración, la actualización de cada una de las $w_i$ a $w_i + \eta \frac{\partial E}{\partial w_i}$, pero el problema es que la computación que es lento, ya que se extiende sobre el conjunto de entrenamiento conjunto de datos.
Así, lo que se ha inventado, es el LMS (Least Mean Squares) de la regla, que afirma que
$\frac{1}{N} \sum_{i=1}^{N}(t_d - o_d)(-x_{id}) \approx (t_d - o_d)(-x_{id}) $
lo que significa que puedo usar el de la formación actual de ejemplo para realizar mi gradiente de la pendiente.
Ahora, después de esta introducción, me gustaría pedir un poco más de la intuición y de la formalidad detrás de este LMS de la regla, y por qué es una buena aproximación. Supongo que me gustaría un poco más de explicación sobre el $\approx$ parte de la ecuación anterior, y cuándo, y cuánto tiene. Gracias por la ayuda.