Dejemos que $(x_i,y_i)_{1\leq i\leq n}$ algún conjunto de datos. Quiero estimar la expectativa condicional $E[Y\mid X=x]$ y la varianza condicional $V[Y\mid X=x]$ .
He utilizado el estimador de Nadaraya-Watson para estimar la expectativa condicional: $$\hat{E}[Y\mid X=x]=\frac{\sum_{i=1}^ny_iK\left(\frac{x-x_i}{h}\right)}{\sum_{i=1}^nK\left(\frac{x-x_i}{h}\right)}$$ De hecho, sólo utilizo el ksmooth
en R.
Ahora dejemos que $z_i$ el residuo al cuadrado: $z_i = \left(y_i - \hat{E}[Y\mid X=x_i]\right)^2$ . A continuación, vuelvo a utilizar el estimador de Nadaraya-Watson para obtener una estimación de la varianza condicional: $$\hat{V}[Y\mid X=x]=\frac{\sum_{i=1}^nz_iK\left(\frac{x-x_i}{h}\right)}{\sum_{i=1}^nK\left(\frac{x-x_i}{h}\right)}$$
Así que se trata de una especie de estimación en dos pasos, lo que me molesta un poco. ¿Es esta una buena manera de estimar la varianza condicional? Si no es así, ¿cómo hacerlo correctamente (y no paramétricamente)?