Se puede encontrar un buen análisis teórico de los esquemas con y sin reemplazo en el contexto de los algoritmos iterativos basados en sorteos aleatorios (que es como se entrenan muchas redes neuronales profundas (DNN) discriminativas) aquí
En resumen, resulta que el muestreo sin reemplazo, conduce a una convergencia más rápida que el muestreo con de reemplazo.
Aquí haré un breve análisis basado en el ejemplo del juguete que proporcionan: Digamos que queremos optimizar la siguiente función objetivo:
$$ x_{\text{opt}} = \underset{x}{\arg\min} \frac{1}{2} \sum_{i=1}^{N}(x - y_i)^2 $$
donde el objetivo $y_i \sim \mathcal{N}(\mu, \sigma^2)$ . En este ejemplo, estamos tratando de resolver el óptimo $x$ , dado $N$ etiquetas de $y_i$ obviamente.
Bien, entonces si resolviéramos el óptimo $x$ en lo anterior directamente, entonces tomaríamos la derivada de la función de pérdida aquí, la pondríamos a 0, y resolveríamos para $x$ . Así que para nuestro ejemplo anterior, la pérdida es
$$L = \frac{1}{2} \sum_{i=1}^{N}(x - y_i)^2$$
y su primera derivada sería:
$$ \frac{\delta L}{\delta x} = \sum_{i=1}^{N}(x - y_i)$$
Configurar $ \frac{\delta L}{\delta x}$ a 0 y resolviendo para $x$ , rinde:
$$ x_{\text{opt}} = \frac{1}{N} \sum_{i=1}^{N} y_i $$
En otras palabras, la solución óptima no es más que la media muestral de todas las $N$ muestras de $y$ .
Ahora bien, si no pudiéramos realizar el cálculo anterior de una sola vez, tendríamos que hacerlo recursivamente, a través de la ecuación de actualización del descenso de gradiente que aparece a continuación:
$$ x_i = x_{i-1} - \lambda_i \nabla(f(x_{i-1})) $$
y simplemente insertando nuestros términos aquí se obtiene:
$$ x_{i} = x_{i-1} - \lambda_i (x_{i-1} - y_{i}) $$
Si ejecutamos lo anterior para todos los $i \in {1, 2, ... N}$ entonces estamos realizando efectivamente esta actualización sin de reemplazo. La pregunta entonces es, ¿podemos obtener también el valor óptimo de $x$ de esta manera? (Recuerde que el valor óptimo de $x$ no es más que la media muestral de $y$ ). La respuesta es sí, si se deja $\lambda_i = 1/i$ . A ver, esto lo ampliamos:
$$ x_{i} = x_{i-1} - \lambda_i (x_{i-1} - y_{i}) \\\ x_{i} = x_{i-1} - \frac{1}{i} (x_{i-1} - y_{i}) \\\ x_{i} = \frac{i x_{i-1} - (x_{i-1} - y_{i})}{i} \\\ x_{i} = \frac{(i - 1)x_{i-1} + y_{i}}{i} \\\ i x_{i} = (i - 1)x_{i-1} + y_{i} \\\ $$
Sin embargo, la última ecuación no es más que la fórmula de la media móvil. Así, al recorrer el conjunto de $i=1$ , $i=2$ etc., hasta llegar a $i=N$ habríamos realizado nuestras actualizaciones sin de reemplazo, y nuestra fórmula de actualización nos da la solución óptima de $x$ que es la media de la muestra.
$$ N x_{N} = (N - 1)x_{N-1} + y_{N} ==> x_N = \frac{1}{N}\sum_{i=1}^{N} y_i = \mu $$
Sin embargo, si realmente dibujamos con sustitución, entonces mientras nuestros sorteos serían realmente independientes, el valor optimizado $x_N$ sería diferente de la media (óptima) $\mu$ y el error al cuadrado vendría dado por:
$$ \mathop{E}\{(x_N - \mu)^2\} $$
que va a ser un valor positivo, y este sencillo ejemplo de juguete se puede extender a dimensiones más altas. Esto tiene como consecuencia que queramos realizar un muestreo sin reemplazo como solución más óptima.
Espero que esto lo aclare un poco más.