Puedo darle una interpretación probabilística/bayesiana de por qué esto no es útil. Un modelo probabilístico para los datos $X$ y parámetros $\theta$ se define por una probabilidad $P(X|\theta)$ y una previa $P(\theta)$ . Ahora imagine que tengo algunos datos de entrenamiento $X_\text{train}$ y quieren hacer predicciones sobre datos futuros $X_\text{future}$ lo que significa que tengo que calcular, o aproximar $$ P(X_\text{future}|X_\text{train}) = \int P(X_\text{future}|\theta) P(\theta|X_\text{train}) d\theta $$ donde $P(\theta|X_\text{train})$ es la posterior. Lo que usted sugiere es muestrear las predicciones $X_\text{pred}$ de $P(X_\text{pred}|X_\text{train})$ (que puede representarse de la misma manera que la ecuación anterior). Sin embargo, como $X_\text{pred}$ no se observa se puede integrar lejos y su posterior en $\theta$ no se modificará. Condicionamiento en $X_\text{pred}$ por lo tanto, no es algo razonable.
Para especular sobre el efecto típico que podría tener: si usted muestra de $P(X_\text{pred}|X_\text{train})$ entonces está añadiendo ruido a su estimación, y reduciendo la incertidumbre en la estimación de $\theta$ (por lo que probablemente se estaría confiando demasiado y equivocándose más), mientras que si se optimiza $P(X_\text{pred}|X_\text{train})$ Supongo que el efecto principal sería la reducción de la incertidumbre en la parte posterior y, por lo tanto, el exceso de confianza en las predicciones (es decir, el sobreajuste).