1 votos

Función de pérdida ponderada para una muestra no aleatoria

Al comparar un método de estimación de regresión (Y frente a X), actualmente utilizo una función de pérdida cuadrada ponderada:

$$ \int_{-\infty}^{\infty}(\hat{f}(x)-f(x))^2 \, \hat{p}(x) \, dx $$

Donde $\hat{f}(x)$ es la función estimada, $f(x)$ es un método de estimación que estoy comparando, y $\hat{p}(x)$ es la densidad X estimada.

Esto funciona bien cuando asumo que las observaciones X son muestreadas aleatoriamente de la densidad verdadera. Sin embargo, si X no es una muestra aleatoria, la ponderación por la densidad estimada de X no tiene sentido.

Si sé que algunos intervalos de X están sobremuestreados y otros submuestreados, ¿cómo debo ajustar los pesos de mi función de pérdida?

2voto

merriam Puntos 67

Su problema puede resolverse tomando prestadas ideas de la regresión ponderada y/o del muestreo de encuestas.

En su caso, para cada muestra no aleatoria $x_i$ se tiene una estimación de la varianza $\sigma_i^2$ . Sea $n_i$ sea el número de réplicas para $x_i$ entonces la probabilidad de muestreo de $x_i$ es $\frac {n_i}{\sum_i n_i}$ .

Si utiliza una idea similar a la Estimador Horvitz-Thompson el estimador del error en $\hat f(x_i)$ debe ser ponderado por $\big(\frac {n_i}{\sum_i n_i}\big)^{-1}$ .

Por lo tanto, la estimación del error al cuadrado o función de pérdida será:

$$\displaystyle \frac {\sum_i w_i (\hat{f}(x_i)-f(x_i))^2} {N}$$

donde $N=\sum_i n_i$ y $w_i=\big(\frac {n_i}{\sum_i n_i}\big)^{-1}$ .

Sin embargo, si crees que tener más información, que es mayor $n_i$ implica una mejor información sobre $(\hat{f}(x_i)-f(x_i))^2$ entonces el enfoque para resolver tu problema sería más parecido a las ideas utilizadas en la regresión lineal ponderada. Como dices, tienes una estimación de la varianza $\sigma_i^2$ para cada $x_i$ , entonces la estimación del error al cuadrado o función de pérdida será:

$$\displaystyle \frac {\sum_i w_i (\hat{f}(x_i)-f(x_i))^2} {\sum_i w_i}$$

donde $w_i=\frac {1}{\sigma_i^2}$ . Tenga en cuenta que aquí $x_i$ pueden tener valores duplicados.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X