5 votos

Regresión polinómica local: ¿Por qué la varianza aumenta monotónicamente en el grado?

¿Cómo puedo demostrar que la varianza de la regresión polinómica local es creciente con el grado del polinomio (Ejercicio 6.3 en Elementos of Statistical Learning, segunda edición)?

Esta pregunta se ha formulado antes de pero la respuesta sólo indica que se sigue con facilidad.

Más concretamente, consideramos $y_{i}=f(x_{i})+\epsilon_{i}$ con $\epsilon_{i}$ siendo independientes con desviación estándar $\sigma.$

El estimador viene dado por

$$ \hat{f}(x_{0})=\left(\begin{array}{ccccc} 1 & x_{0} & x_{0}^{2} & \dots & x_{0}^{d}\end{array}\right)\left(\begin{array}{c} \alpha\\ \beta_{1}\\ \vdots\\ \beta_{d} \end{array}\right) $$ para $\alpha,\beta_{1},\dots,\beta_{d}$ resolviendo la siguiente ponderación problema de mínimos cuadrados ponderados $$ \min\left(y_{d}-\underbrace{\left(\begin{array}{ccccc} 1 & x_{1} & x_{1}^{2} & \dots & x_{1}^{d}\\ \vdots\\ 1 & & & & x_{n}^{d} \end{array}\right)}_{X}\left(\begin{array}{c} \alpha\\ \beta_{1}\\ \vdots\\ \beta_{d} \end{array}\right)\right)^{t}W\left(y-\left(\begin{array}{ccccc} 1 & x_{1} & x_{1}^{2} & \dots & x_{1}^{d}\\ \vdots\\ 1 & & & & x_{n}^{d} \end{array}\right)\left(\begin{array}{c} \alpha\\ \beta_{1}\\ \vdots\\ \beta_{d} \end{array}\right)\right) $$ para $W=\text{diag}\left(K(x_{0},x_{i})\right)_{i=1\dots n}$ con $K$ siendo el núcleo de regresión. La solución del problema de mínimos cuadrados ponderados se puede escribir como $$ \left(\begin{array}{cccc} \alpha & \beta_{1} & \dots & \beta_{d}\end{array}\right)=\left(X^{t}WX\right)^{-1}X^{t}WY. $$ Así, para $l(x_{0})=\left(\begin{array}{ccccc} 1 & x_{0} & x_{0}^{2} & \dots & x_{0}^{d}\end{array}\right)\left(X^{t}WX\right)^{-1}X^{t}W$ obtenemos $$ \hat{f}(x_{0})=l(x_{0})Y $$ lo que implica que $$ \text{Var }\hat{f}(x_{0})=\sigma^{2}\left\Vert l(x_{0})\right\Vert ^{2}=\left(\begin{array}{ccccc} 1 & x_{0} & x_{0}^{2} & \dots & x_{0}^{d}\end{array}\right)\left(X^{t}WX\right)^{-1}X^{t}W^{2}X\left(X^{t}WX\right)^{-1}\left(\begin{array}{ccccc} 1 & x_{0} & x_{0}^{2} & \dots & x_{0}^{d}\end{array}\right)^{t}. $$ Mi enfoque: Una inducción utilizando la fórmula de la inversa de una matriz de bloques matriz de bloques, pero no tuve éxito.

El papel Regresión multivariante por mínimos cuadrados ponderados localmente de D. Ruppert y M. P. Wand deriva una expresión asintótica para la varianza de $n\rightarrow\infty$ en el Teorema 4.1 pero no está claro que sea creciente en el grado.

4voto

ksaunam Puntos 86

Si la varianza aumenta para cada matriz de ponderación $W$ entonces esto también es válido para $W=I$ . En adelante, utilizaré la notación de MCO. Tenemos $$y=X\beta+u\textrm{,} \qquad \textrm{with} \qquad X\in\mathbb{R}^{n\times k};\, y,u\in\mathbb{R}^{n};\, \beta\in\mathbb{R}^{k}$$ y con los supuestos estándar. Para una regresión polinómica, sea $\begin{pmatrix}x_{1},x_{2},\ldots,x_{n}\end{pmatrix}^{T}=:x\in\mathbb{R}^{n}$ be some vector, then we have $$X:=\begin{bmatrix}x^{0},x^{1},x^{2},\ldots,x^{k-1}\end{bmatrix}\textrm{,}$$ donde la exponenciación se entiende de forma elemental.

La estimación OLS para los pesos polinómicos es $$\hat{\beta} := \left(X^{T}X\right)^{-1}X^{T}y\textrm{.}$$ Para cualquier $t\in\mathbb{R}$ podemos establecer $$z:=\begin{pmatrix}t^{0}\\t^{1}\\t^{2}\\\vdots\\t^{k-1}\end{pmatrix}\in\mathbb{R}^{k}\textrm{.}$$ An estimate of $y$ at $t$ is then given by $\hat{y}_{t}:=z^{T}\hat{\beta}$. For the variance of $\hat{y}_{t}$ w need to know its expected value: \begin{align} \mathbb{E}\left[\hat{y}_{t}\right] &= \mathbb{E}\left[z^{T}\hat{\beta}\right] =\mathbb{E}\left[z^{T}\left(X^{T}X\right)^{-1}X^{T}y\right] \\ &=\mathbb{E}\left[z^{T}\left(X^{T}X\right)^{-1}X^{T}X\beta + z^{T}\left(X^{T}X\right)^{-1}X^{T}u\right] \\ &=z^{T}\beta + z^{T}\left(X^{T}X\right)^{-1}X^{T}\mathbb{E}\left[u\right] = z^{T}\beta \end{align} De este cálculo se desprende que $$\hat{y}_{t}-\mathbb{E}\left[\hat{y}_{t}\right] = z^{T}\left(X^{T}X\right)^{-1}X^{T}u\textrm{.}$$ Ahora podemos calcular la varianza de $\hat{y}_{t}$ : \begin{align} \operatorname{Var}\left[\hat{y}_{t}\right] &= \mathbb{E}\left[\left(\hat{y}_{t}-\mathbb{E}\left[\hat{y}_{t}\right]\right)\left(\hat{y}_{t}-\mathbb{E}\left[\hat{y}_{t}\right]\right)^{T}\right] \\ &= \mathbb{E}\left[\left(z^{T}\left(X^{T}X\right)^{-1}X^{T}u\right)\left(z^{T}\left(X^{T}X\right)^{-1}X^{T}u\right)^{T}\right] \\ &= \mathbb{E}\left[\left(z^{T}\left(X^{T}X\right)^{-1}X^{T}u\right)\left(u^{T}X\left(X^{T}X\right)^{-1}z\right)\right] \\ &= z^{T}\left(X^{T}X\right)^{-1}X^{T}\mathbb{E}\left[uu^{T}\right]X\left(X^{T}X\right)^{-1}z \\ &= \sigma^{2}z^{T}\left(X^{T}X\right)^{-1}z \textrm{.} \end{align} Si aumentamos $k\mapsto k+1$ Tendremos $$X_{*}:=\begin{bmatrix}x^{0},x^{1},x^{2},\ldots,x^{k-1},x^{k}\end{bmatrix}\in\mathbb{R}^{n\times\left(k+1\right)}\textrm{,}$$ and therefore $\hat{\beta_{*}}\in\mathbb{R}^{k+1}$ and $$z_{*}:=\begin{pmatrix}t^{0}\\t^{1}\\t^{2}\\\vdots\\t^{k-1}\\t^{k}\end{pmatrix}\in\mathbb{R}^{k+1}\textrm{.}$$ La varianza de $\hat{y}_{t}^{*}$ es ahora un $\left(k+1\right)\times\left(k+1\right)$ matriz \begin{equation} \operatorname{Var}\left[\hat{y}_{t}^{*}\right]=\sigma^{2}z_{*}^{T}\left(X_{*}^{T}X_{*}\right)^{-1}z_{*}\textrm{,} \end{equation} que tenemos que comparar con el $k\times k$ matriz $\operatorname{Var}\left[\hat{y}_{t}\right]$ . Como tenemos inversos, el Complemento de Schur ayudará: \begin{equation} \begin{pmatrix}A & B\\C & D\end{pmatrix}^{-1} = \begin{pmatrix} \left(A-B D^{-1} C \right)^{-1} & -\left(A-B D^{-1} C \right)^{-1} B D^{-1} \\ -D^{-1}C\left(A-B D^{-1} C \right)^{-1} & D^{-1}+ D^{-1} C \left(A-B D^{-1} C \right)^{-1} B D^{-1} \end{pmatrix} \end{equation} Ya que tenemos $$X_{*} := \begin{bmatrix}X,x^{k}\end{bmatrix}$$ and $$z_{*} := \begin{pmatrix}z\\t^{k}\end{pmatrix}$$ podemos escribir con la abreviatura $q:=x^{k}$ \begin{equation} \operatorname{Var}\left[\hat{y}_{t}\right] = \sigma^{2} \begin{pmatrix}z^{T},t^{k}\end{pmatrix} \begin{pmatrix}X^{T}X & X^{T}q \\ q^{T}X & q^{T}q\end{pmatrix}^{-1} \begin{pmatrix}z\\t^{k}\end{pmatrix} \textrm{.} \end{equation} Ahora podemos invertir esta matriz de bloques utilizando el mencionado complemento de Schur y obtener \begin{align} \operatorname{Var}\left[\hat{y}_{t}\right] &= \sigma^{2} \begin{pmatrix}z^{T},t^{k}\end{pmatrix} \begin{pmatrix} \left(X^{T}X - X^{T}q \left(q^{T}q\right)^{-1} q^{T}X \right)^{-1} & B_{*} \\ B_{*}^{T} & D_{*} \end{pmatrix} \begin{pmatrix}z\\t^{k}\end{pmatrix} \\ &= \sigma^{2} \left( z^{T}\left(X^{T}X - X^{T}q \left(q^{T}q\right)^{-1} q^{T}X \right)^{-1} z + t^{k}z^{T}B_{*} + t^{k}B_{*}^{T}z + t^{2k}D_{*} \right) \textrm{.} \end{align} La matriz $X^{T}q \left(q^{T}q\right)^{-1} q^{T}X$ es semidefinido positivo, porque se puede escribir como $$X^{T}q \left(q^{T}q\right)^{-1} q^{T}X = \left(q^{T}q\right)^{-1}X^{T}qq^{T}X$$ y $qq^{T}$ es un rango $1$ con el único valor propio no evanescente igual a $q^{T}q$ . La matriz $q \left(q^{T}q\right)^{-1} q^{T}$ es la proyección sobre el subespacio abarcado por $q=x^{k}$ Así que $X^{T}X \succeq X^{T}q \left(q^{T}q\right)^{-1} q^{T}X$ es decir, la diferencia $X^{T}X - X^{T}q \left(q^{T}q\right)^{-1} q^{T}X$ es semidefinido positivo. Si invertimos, la matriz resultante sigue siendo semidefinida positiva, pero resulta que $$X^{T}X \succeq X^{T}q \left(q^{T}q\right)^{-1}X \implies \left(X^{T}X\right)^{-1} \preceq \left(X^{T}q \left(q^{T}q\right)^{-1}X\right)^{-1} $$ Así que en \begin{equation} \operatorname{Var}\left[\hat{y}_{t}^{*}\right] = \sigma^{2}z^{T}\left(X^{T}X - X^{T}q \left(q^{T}q\right)^{-1} q^{T}X \right)^{-1} z + 2\sigma^{2}t^{k}z^{T}B_{*} + \sigma^{2}t^{2k}D_{*} \textrm{.} \end{equation} Podemos calcular cada uno de los términos y concluir que al aumentar el grado del polinomio la varianza no disminuye.

0 votos

Estimado Marco, gracias por su respuesta. Estoy un poco confundido cuando dices que qqT es de rango 1. Con tu notación q es sólo un escalar.

0 votos

Adopté la convención de que cada vector $v$ es un vector columna y cada vector $v^{T}$ es un vector de filas. Así que $qq^{T}$ es una matriz de rango uno con un único valor propio no trivial $q^{T}q$ . Pero tienes razón, cuando definí por primera vez $x$ No escribí el signo de transposición. Lo añadiré en mi respuesta.

2 votos

Pensé que sus argumentos se generalizarían trivialmente al caso ponderado, pero debido a la $W^2$ en la expresión para $ \text{Var }\hat{f}(x_{0})$ no lo hace. ¿Tiene algún consejo al respecto?

0voto

Ryan Puntos 46

Compartiría mi solución incompleta, parece que funciona para $W=I$ pero no he podido demostrarlo para una matriz general.

A diferencia de la respuesta de Marco, podemos calcular a partir del estimador para un grado superior, digamos $d$ y tratar el estimador de grado $d-1$ como un estimador de mínimos cuadrados restringidos para el grado $d$ .

Para simplificar, considere $W = I$ primero. Deje que $\hat \beta$ sea el estimador mínimo cuadrático de grado $d$ es decir,

$$ X = \begin{bmatrix} 1 & x_1 & \cdots & x_1^d\\ 1 & x_2 & \cdots & x_2^d\\ \vdots & \vdots & \ddots & \vdots\\ 1 & x_n & \cdots & x_n^d \end{bmatrix} $$

y que $\hat\beta_c$ sea el estimador mínimo cuadrático restringido bajo la condición

$$ A\beta:= \begin{bmatrix} 0 & 0 &\cdots & 0 & 1 \end{bmatrix}\beta = 0 $$

En una palabra, $\hat\beta_c$ tiene la misma dimensión con $\hat\beta$ pero el último elemento es 0.

Mediante el multiplicador de Lagrange, se puede demostrar que (como en https://en.wikipedia.org/wiki/Ordinary_least_squares#Constrained_estimation ),

$$ \hat\beta_c = [I - (X^TX)^{-1}A^T(A(X^TX)^{-1}A^T)^{-1}A]\hat\beta\triangleq (I-\Delta)\hat\beta\,. $$

Denote

$$ (X^TX)^{-1} = \begin{bmatrix} * & * & \cdots & \sigma_{0d}\\ * & * & \cdots & \sigma_{1d}\\ \vdots & \vdots & \ddots & \vdots\\ \sigma_{d0} & \sigma_{d1} & \cdots & \sigma_{dd} \end{bmatrix}_{(d+1)\times (d+1)} $$

entonces $A(X^TX)^{-1}A^T=\sigma_{dd}$ \y

$$ A^T(A(X^TX)^{-1}A^T)^{-1}A = \begin{bmatrix} 0 & 0 & \cdots & 0\\ 0 & 0 & \cdots & 0\\ \vdots & \vdots & \ddots & 0\\ 0 & 0 & \cdots & \frac{1}{\sigma_{dd}} \end{bmatrix} $$

donde sólo el último elemento diagonal es distinto de cero, por lo que sólo la última columna de $\Delta$ es distinto de cero, con valores

$$ \Delta_d = \begin{bmatrix} \frac{\sigma_{0d}}{\sigma_{dd}} & \frac{\sigma_{1d}}{\sigma_{dd}} & \cdots & 1 \end{bmatrix}^T\,. $$

Tenga en cuenta que

$$ \newcommand\Var{\mathrm{Var}} \newcommand\E{\mathrm{E}} \begin{align} \Var(\hat\beta_c) &= \E(\hat\beta_c-\beta_c)(\hat\beta_c-\beta_c)^T\\ &=(I-\Delta)\E(\hat\beta-\beta)(\hat\beta-\beta)^T(I-\Delta^T)\\ &=(I-\Delta)\Var(\hat\beta)(I-\Delta^T) \end{align} $$

luego con una nueva observación $z = [1, x, \cdots, x^d]$ y como $\Var(\hat\beta)=\sigma^2(X^TX)^{-1}$ entonces $$ \begin{align} \Var(z^T\hat\beta_c) &= z^T\Var(\hat\beta_c)z\\ &=z^T\Var(\hat\beta)z-2z^T\Delta\Var(\hat\beta)z + z^T\Delta\Var(\hat\beta)\Delta^Tz\\ &=\Var(z^T\hat\beta)-2\sigma^2z^T\Delta(X^TX)^{-1}z + \sigma^2z^T\Delta(X^TX)^{-1}\Delta^Tz \end{align}\,, $$

donde

$$ \begin{align} z^T\Delta(X^TX)^{-1}z &= \begin{bmatrix}0,0,\ldots,\sum\limits_{k=0}^dx^k\dfrac{\sigma_{kd}}{\sigma_{dd}}\end{bmatrix}(X^TX)^{-1}z\\ &= \sum_{k=0}^dx^k\frac{\sigma_{kd}}{\sigma_{dd}}\begin{bmatrix}\sigma_{d0},\sigma_{d1},\ldots,\sigma_{dd}\end{bmatrix}z \\ &=\left(\sum_{k=0}^dx^k\frac{\sigma_{kd}}{\sigma_{dd}}\right)\cdot \left(\sum_{k=0}^dx^k\sigma_{kd}\right)\\ &=\left(\sum_{k=0}^dx^k\frac{\sigma_{kd}}{\sigma_{dd}}\right)^2\sigma_{dd} \end{align} $$ y $$ z^T\Delta(X^TX)^{-1}\Delta^Tz = \left(\sum_{k=0}^dx^k\frac{\sigma_{kd}}{\sigma_{dd}}\right)^2\sigma_{dd} $$ así, $$ \Var(z^T\hat\beta_c) = \Var(z^T\hat\beta) - z^T\Delta(X^TX)^{-1}\Delta^Tz \le \Var(z^T\hat\beta)\,, $$ lo que significa que la varianza aumenta con el grado del polinomio local.

Para la matriz de pesos general $W$ el mínimo cuadrado restringido puede obtenerse fácilmente mediante el multiplicador de Lagrange,

$$ \hat\beta_c = [I - (X^TWX)^{-1}A^T(A(X^TWX)^{-1}A^T)^{-1}A]\hat\beta\triangleq (I-\Delta)\hat\beta\,, $$

y continuar el procedimiento anterior, pero como

$$ \Var(\hat\beta) = (X^TWX)^{-1}(X^TW^2X)(X^TWX)^{-1}\,, $$

es más complejo que $W=I$ No he podido comparar $2z^T\Delta\Var(\hat\beta)z$ y $z^T\Delta\Var(\hat\beta)\Delta^Tz$ . Me gustaría que alguien me diera alguna pista.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X