Al comparar un método de estimación de regresión (Y frente a X), actualmente utilizo una función de pérdida cuadrada ponderada:
$$ \int_{-\infty}^{\infty}(\hat{f}(x)-f(x))^2 \, \hat{p}(x) \, dx $$
Donde $\hat{f}(x)$ es la función estimada, $f(x)$ es un método de estimación que estoy comparando, y $\hat{p}(x)$ es la densidad X estimada.
Esto funciona bien cuando asumo que las observaciones X son muestreadas aleatoriamente de la densidad verdadera. Sin embargo, si X no es una muestra aleatoria, la ponderación por la densidad estimada de X no tiene sentido.
Si sé que algunos intervalos de X están sobremuestreados y otros submuestreados, ¿cómo debo ajustar los pesos de mi función de pérdida?