Esta pregunta se refiere a la Teorema del representante generalizado debido a Schölkopf, Herbrich y Smola . En este magnífico trabajo, los autores proporcionan dos versiones del Teorema del Representante, una no paramétrico y un semiparamétrico uno. Sin embargo, sólo proporcionan una prueba para la versión no paramétrica, mientras que dicen que la prueba para la versión semiparamétrica es ligeramente más técnica, pero sencilla.
Entiendo perfectamente la prueba de la versión no paramétrica, pero desgraciadamente no encuentro la forma de iniciar la prueba de la semiparamétrica.
A continuación, doy los enunciados de las dos versiones anteriores del Teorema del Representante, así como la prueba para el caso no paramétrico, y me gustaría discutir sobre la prueba de la versión semiparamétrica.
# Teorema 1 (Teorema del representante no paramétrico) Supongamos que nos dan un conjunto no vacío $\mathcal{X}$ un núcleo definido positivo de valor real $k$ en $\mathcal{X}\times\mathcal{X}$ , muestras $(\mathbf{x}_1,y_1),\cdots,(\mathbf{x}_m,y_m)\in\mathcal{x}\times\mathbb{R}$ una función de valor real estrictamente monótona y creciente $g$ en $[0,\infty)$ una función de coste arbitraria $c\colon(\mathcal{x}\times\mathbb{R}^2)^m\to\mathbb{R}\cup\{\infty\}$ y una clase de funciones $$ \mathcal{F}=\bigg\{ f\in\mathbb{R}^{\mathcal{X}} \mid f(\cdot)=\sum_{i=1}^{\infty}\beta_i k(\cdot, \mathbf{z}_i), \beta_i\in\mathbb{R}, \mathbf{z}_i\in\mathcal{X}, \lVert f \rVert < \infty \bigg\}. $$ Aquí, $\lVert\cdot\rVert$ denota la norma en el Espacio de Hilbert del Núcleo de Reproducción (RKHS) $\mathcal{H}$ asociado a $k$ . Entonces cualquier $f\in\mathcal{F}$ minimizar el funcional de riesgo regularizado $$ c \Big( (\mathbf{x}_1,y_1,f(\mathbf{x}_1)), \cdots, (\mathbf{x}_m,y_m,f(\mathbf{x}_m)) \Big) + g\big(\lVert f \rVert\big) $$ admite una representación de la forma $$ f(\cdot) = \sum_{i=1}^{m} \alpha_i k(\cdot,\mathbf{x}_i). $$
Prueba : Dejemos que $\phi: \mathcal{X}\to\mathbb{R}^{\mathcal{X}}$ , $$ \mathbf{x}\mapsto k(\cdot,\mathbf{x}). $$ Desde $k$ es un núcleo reproductor, la evaluación de la función $\phi(\mathbf{x})$ en el punto $\mathbf{x}'$ rinde $$ (\phi(\mathbf{x}))(\mathbf{x}')=k(\mathbf{x}',\mathbf{x})=\langle \phi(\mathbf{x}'), \phi(\mathbf{x}) \rangle, $$ para todos $\mathbf{x},\mathbf{x}'\in\mathcal{X}$ . Aquí $\langle \cdot,\cdot \rangle$ denota el producto punto en $\mathcal{H}$ . Dado $\mathbf{x}_1,\cdots,\mathbf{x}_m$ , cualquier $f\in\mathcal{F}$ puede descomponerse en una parte que vive en el lapso de la $\phi(\mathbf{x}_i)$ y una parte que es ortogonal a ella, es decir $$ f = \sum_{i=1}^{m} \alpha_i\phi(\mathbf{x}_i) + u, $$ para algunos $\alpha\in\mathbb{R}^m$ y $u\in\mathcal{F}$ satisfactorio para todos $j$ , $$ \langle u,\phi(\mathbf{x}_j) \rangle = 0. $$ Utilizando esta última y la propiedad de reproducción mencionada anteriormente, la aplicación de $f$ a un punto arbitrario $\mathbf{x}_j$ rinde $$ f(\mathbf{x}_j) = \Big\langle \sum_{i=1}^{m} \alpha_i\phi(\mathbf{x}_i) + u, \phi(\mathbf{x}_j) \Big\rangle = \sum_{i=1}^{m} \alpha_i \Big\langle \phi(\mathbf{x}_i),\phi(\mathbf{x}_j) \Big\rangle, $$ que es independiente de $u$ . En consecuencia, el primer término del funcional de riesgo regularizado es independiente de $u$ . En cuanto al segundo término, ya que $u$ es ortogonal a $\sum_{i=1}^{m}\alpha_i\phi(\mathbf{x}_i)$ y $g$ es estrictamente monótona, obtenemos $$ g\big(\lVert f \rVert\big) = g\bigg(\bigg\lVert \sum_{i=1}^{m} \alpha_i\phi(\mathbf{x}_i) + u \bigg\rVert\bigg) = g\bigg( \sqrt{ \bigg\lVert \sum_{i=1}^{m} \alpha_i\phi(\mathbf{x}_i) \bigg\rVert^2 + \bigg\lVert u \bigg\rVert^2 } \bigg) \geq g\bigg( \bigg\lVert \sum_{i=1}^{m} \alpha_i\phi(\mathbf{x}_i) \bigg\rVert \bigg), $$ con igualdad si $u=0$ . Configurar $u=0$ por lo tanto, no afecta al primer término del funcional de riesgo regularizado, mientras que reduce estrictamente el segundo término - por lo tanto, cualquier minimizador debe tener $u=0$ . En consecuencia, cualquier solución toma la forma $f=\sum_{i=1}^{m}\alpha_i\phi(\mathbf{x}_i)$ es decir, utilizando la propiedad de reproducción, $$ f(\cdot) = \sum_{i=1}^{m}\alpha_i k(\cdot,\mathbf{x}_i). $$ Q.E.D.
Ahora, el enunciado de la versión semiparamétrica extiende la no paramétrica como sigue:
# Teorema 2 (Teorema del representante semiparamétrico)
Supongamos que, además de los supuestos del teorema anterior, se nos da un conjunto de $M$ funciones de valor real $\{\psi_p\}_{p=1}^{M}$ definido en $\mathcal{X}$ con la propiedad de que el $m\times M$ matriz $\big( \psi_p(\mathbf{x}_i) \big)_{ip}$ tiene rango $M$ . Entonces, cualquier $\tilde{f}:=f+h$ con $f\in\mathcal{F}$ y $h\in\operatorname{span}\{\psi_p\}$ minimizando la función de riesgo regularizada $$ c \Big( (\mathbf{x}_1,y_1,\tilde{f}(\mathbf{x}_1)), \cdots, (\mathbf{x}_m,y_m,\tilde{f}(\mathbf{x}_m)) \Big) + g\big(\lVert f \rVert\big), $$ admite una representación de la forma $$ \tilde{f}(\cdot) = \sum_{i=1}^{m}\alpha_i k(\cdot,\mathbf{x}_i) + \sum_{p=1}^{M}\beta_p \psi_p(\cdot), $$ con coeficientes únicos $\beta_p\in\mathbb{R}$ para todos $p=1,\cdots,M$ .
Estaría bien que aportaras un esbozo significativo de la prueba. Creo que podría ayudar a otras personas que estudian esta teoría, pero que desgraciadamente no tienen la formación adecuada para demostrar tales teoremas por sí mismos (¡todavía!). Muchas gracias.
0 votos
Echa un vistazo a los posts en meta sobre cross-posting . Por ejemplo meta.math.stackexchange.com/questions/5085/ o meta.math.stackexchange.com/questions/4873/