1 votos

Aproxime los valores singulares de una matriz de kernel de producto punto aleatoria (en el sentido de El Karoui, Cheng-Singer, etc.)

  • Sea $g:\mathbb R \to \mathbb R $ una función continua que sea

    • "suficientemente suave" (por ejemplo, $\mathcal C^3$) alrededor de $0$, y
    • "suficientemente integrable" (por ejemplo, integrable respecto a $N(0,1)$).
  • Sean $d'$ y $d$ enteros positivos que tienden a infinito de manera que $d'/d \to \rho \in (0,\infty)$.

  • Sea $X$ una matriz aleatoria de tamaño $d' \times d$ con filas iid $x_1,\ldots,x_D$ de $N(0,(1/d)I_d)$, sea $\widetilde{X}$ la matriz aleatoria de tamaño $d'\times d$ con filas $\widetilde{x}_i := x_i/\|x_i\|$. Así, cada $\widetilde{x}_i$ está distribuido uniformemente en la esfera unitaria en $\mathbb R^{d}$.

  • Para $x \sim N(0,(1/d)I_d)$ independiente de $X$, define una matriz aleatoria de tamaño $d' \times d'$ semidefinida positiva $B$ y $\widetilde{B}$ por $$ \begin{split} b_{ij} &:= (x_i^\top x_j)\mathbb E_x[g(x^\top x_i)g(x^\top x_j)],\\ \widetilde{b}_{ij} &:= (\widetilde{x}_i^\top \widetilde{x}_j)\mathbb E_x[g(\widetilde{x}^\top \widetilde{x}_i)g(\widetilde{x}^\top \widetilde{x}_j)]. \end{split} $$

Pregunta. ¿Son verdaderas las siguientes afirmaciones ? $$ \begin{split} \|B-g(0)^2 XX^\top\|_{op} &\overset{p}{\to} 0,\\ \|\widetilde{B}-g(0)^2 \widetilde{X}\widetilde{X}^\top\|_{op} &\overset{p}{\to} 0. \end{split} $$

Evidencia empírica

Aquí hay resultados de algunos experimentos con $d'=200$ y $d=300$, y diferentes opciones para $g$, tanto suaves como rugosas. ¡Juzgando por estas observaciones, parece que la pregunta anterior es afirmativa!

enter image description here enter image description here

Un intento descuidado

Veamos un argumento heurístico (¡e incorrecto!) por qué uno esperaría que $$ \|\widetilde{B}-g(0)^2\widetilde{X}\widetilde{X}^\top\|_{op} \overset{p}{\to} 0 $$ sea cierto.

Para simplificar la notación, sea $w_i:=\widetilde{x}_i$ en adelante. Sea la matriz $\widetilde{U}$ la matriz aleatoria semidefinida positiva de tamaño $n \times n$ definida por $\widetilde{u}_{ij} := \mathbb E_z[g(z^\top w_i)g(z^\top w_j)]$, donde $z=(z_1,\ldots,z_d)$ es uniforme en la esfera unitaria en $\mathbb R^d$, e independiente de los $w_i$'s.

Observa que $\widetilde{B}$ es el producto Hadamard de $\widetilde{U}$ con $\widetilde{X}\widetilde{X}^\top$.

Ahora, debido a la invarianza rotacional, podemos escribir $\widetilde{u}_{ij} = u_d(z_i^\top z_j)$, donde $u_d:[-1,1] \to \mathbb R$ se define por $$ u_d(t) := \mathbb E_z[g(z_1)g(tz_1+(1-t^2)^{1/2} z_2)]. $$ Por lo tanto, $\widetilde{B}$ es una matriz de núcleo de producto punto, a través de una función de envolvente $u_d$ que varía con la dimensión $d$. Esta dependencia en $d$ es mala noticia para nosotros.

Ignoremos la dependencia de $u_d$ en $d$. Por supuesto, esto es incorrecto (y será la única parte descuidada de nuestros argumentos), pero hagámoslo de todos modos.

Luego podemos invocar el Teorema 2.3 de El Karoui '10 para obtener que $\|\widetilde{U}-A\|_{op} \overset{p}{\to} 0$, donde $$ A := u_d(0) 1_{d'}1_{d'}^\top + u_d'(0)\widetilde{X}\widetilde{X}^\top + \gamma I_{d'}, $$ con $\gamma := u_d(1)-u_d(0)-u_d'(0)$.

Finalmente, utilizando la concentración exponencial en $d$ de $z_1^2 + z_2^2$, es fácil ver que

Hecho. Si $G:\mathbb R^2 \to \mathbb R$ es una función continua, entonces $\mathbb E_z[G(z_1,z_2)] \to G(0,0)$.

Deducimos que si nuestra función $g$ es $\mathcal C^1$ en $0$, entonces

$$ \begin{split> u_d(1) &= \mathbb E_z[g(z_1)^2] \to g(0)^2,\\ u_d(0) &=\mathbb E_z[g(z_1)g(z_2)] \to g(0)^2,\\ u_d'(0) &= \mathbb E_z[z_1 g(z_1)g'(z_2)] \to 0,\\ \gamma &= u_d(1)-u_d(0)-u_d'(0) \to 0, \end{split} $$

de lo cual se seguiría que $\|\widetilde{U}-g(0)^2 1_{d'}1_{d'}\|_{op} \overset{p}{\to} 0$, y por lo tanto $\|\widetilde{B}-g(0)^2 \widetilde{X}\widetilde{X}^\top\|_{op} \overset{p}{\to} 0$, como se afirma.

0voto

Tim Kersten Puntos 128

Reclamo (resultado no asintótico bajo condición de suavidad). Supongamos que $g$ es $\mathcal C^5$ en $0$ y que $d'$ y $d$ son suficientemente grandes con $c_1 \le n'/d \le c_2$ para algunas constantes absolutas $0 < c_2 \le c_2 < \infty$. Entonces con probabilidad $1-e^{-Cd}$, se cumple que $$ \|\widetilde{B}-g(0)^2\widetilde{X}\widetilde{X}^\top\|_{op} = o_d(1). $$

Por supuesto, idealmente, uno quisiera trabajar con mucha menos regularidad (por ejemplo, considera $g(z) := 1 / (|z| + 1)$ en los experimentos anteriores).


Prueba. De hecho, sea $g(x) = a_0 + a_1 x + a_2x^2 + a_3 x^3 + a_4x^4 + a_5x^5 + \mathcal O(x^6)$ su aproximación de Maclaurin de orden $5$. Fija $i,j \in [n]$, y sea $a := \widetilde{x}_i = x_i/\|x\|$, $b := \widetilde{x}_j = x_j/\|x\|$, y $t := a^\top b$. Observa que $|t| \le 1$ incondicionalmente.

Por linealidad de la esperanza, tenemos que $\widetilde{u}_{ij} := \mathbb E_w[g(w^\top a)g(w^\top b)] = c_{ij} + \mathcal O(1/d^3)$, donde

$$ c_{ij} := \sum_{n=0}^5\sum_{m=0}^5 a_0 a_m \mathbb E[(w^\top a)^n(w^\top b)^m]. $$

Por otro lado, para cualquier $n,m \ge 0$, tenemos que

Hecho. $\mathbb E_w[(w^\top a)^n(w^\top b)^m]=0$ si $n$ y $m$ tienen paridades diferentes, y de lo contrario $$ \mathbb E_w[(w^\top a)^n(w^\top b)^m] = \frac{n!m!\Gamma(d/2)}{2^{n/2+m/2}\Gamma(d/2+n/2+m/2)}\sum_k \frac{t^k}{(n/2-k/2)!(m/2-k/2)!}, $$ donde la suma es sobre todos los $k \in \{0,\ldots,\min(n,m)\}$ que tienen la misma paridad que $n$ y $m$.

Por lo tanto, $c_{ij}$ es un polinomio en $t$ de grado a lo sumo 5. El término constante (es decir, el coeficiente de $t^0$) en este polinomio es

$$ c_{ij}[t^0] = a_0^2 + \sum_{n,m}a_na_m\frac{n!m!}{2^{n/2+m/2}(n/2)!(m/2)!} \cdot \frac{\Gamma(d/2)}{\Gamma(d/2+n/2+m/2)} $$

donde la suma es sobre $n,m$ pares en $0,\ldots,5$ no ambos iguales a $0$. Para cualquier $n$ y $m$ tales, tenemos que $n/2 + m/2 \ge 1$ y así

$$ \dfrac{\Gamma(d/2)}{\Gamma(d/2+n/2+m/2)} \le \dfrac{\Gamma(d/2)}{\Gamma(d/2+1)} = \frac{2}{d}. $$ Concluimos que $c_{ij}[t^0] = a_0^2 + \mathcal O(1/d)$ para $d$ grande.

De manera similar, para cualquier $k \in \{1,\ldots,5\}$, el coeficiente de $t^k$ en $c_{ij}$ es $$ c_{ij}[t^k] = \sum_{n,m}a_na_m\frac{n!m!}{2^{n/2+m/2}(n/2-k/2)!(m/2-k/2)!} \cdot \frac{\Gamma(d/2)}{\Gamma(d/2+n/2+m/2)} $$ donde la suma es sobre $n,m$ en $k,\ldots,5$ que tienen la misma paridad que $k$. Observa que para tales $n,m$ tenemos que $n/2+m/2 \ge k$, y así $$ \dfrac{\Gamma(d/2)}{\Gamma(d/2+n/2+m/2)} \le \dfrac{\Gamma(d/2)}{\Gamma(d/2+k)}=\dfrac{1}{(d+2(k-1))(d+2(k-1))\ldots d} \le \frac{1}{d^k}, $$ Deducimos que $u_{ij}[t^k] = \mathcal O(1/d^k)$ para $d$ grande, y entonces porque $\|\widetilde{X}\widetilde{X}^\top \|_{op} = \mathcal O(1)$ con probabilidad $1-e^{-Cd}$ (a través de la RMT clásica no asintótica), deducimos que

$$ \|\widetilde{U}-(a_0^2+\mathcal O_d(1/d)) 1_{d'}1_{d'}^\top\|_{op}=o_{d}(1). $$ Finalmente, ya que $(1_{d'}1_{d'}^\top) \circ (\widetilde{X}\widetilde{X}^\top) = \widetilde{X}\widetilde{X}^\top$, el reclamo sigue. $\quad\quad\quad\quad\Box$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X