18 votos

¿Con qué rapidez pueden converger a su expectativa los valores propios extremos de la media de matrices aleatorias?

Supongamos que $X_1,X_2,\ldots,X_m$ son independientes $d\times d$ matrices aleatorias y que $\overline{X} := \frac{1}{m}\sum_{i=1}^m X_i$ . Una de las cuestiones estudiadas en el marco de la teoría de las matrices aleatorias es que si y a qué velocidad $\lambda_{\max}\bigl(\overline{X}\bigr)$ (es decir, el mayor valor propio de $\overline{X}$ ) converge a $\mathbb{E}\left[\lambda_{\max}\bigl(\overline{X}\bigr)\right]$ como $m\to +\infty$ .

Para obtener tales garantías, se suelen hacer algunas suposiciones sobre la $X_i$ 's. Por ejemplo, se puede suponer que $X_i$ son autoadjuntos, tienen entradas independientes subgaussianas o subexponenciales, etc. Por lo que he leído en la literatura, hay una suposición particular, a saber $\lambda_{\max}\bigl(X_i\bigr)\leq R$ casi seguro ---que se hace en casi todos los casos estudiados. Por ejemplo, utilizando este supuesto de acotación, las versiones matriciales de las desigualdades de Chernoff y Bernstein, así como algunas otras desigualdades (véase, por ejemplo, Vershynin'12 , Tropp'11 , MacKey et al'12 , Hsu et al'12 ) puede garantizar desigualdades de concentración de la forma $$\Pr\left\{ \left|\lambda_{\max}\bigl(\overline{X}\bigr)-\mathbb{E}\left[\lambda_{\max}\bigl(\overline{X}\bigr)\right]\right|\geq \epsilon \right\} \leq d\exp\left(-\epsilon^2m/R\right).$$ Pueden variar en el exponente de $\epsilon$ el coeficiente de la exponencial, o el denominador dentro del $\exp\left(\cdot\right)$ pero todos decaen a una velocidad del orden de $m/R$ .

Ahora, aquí está la cuestión. Supongamos que $X_i=x_ix_i^\mathrm{T}$ donde el $x_i$ son vectores iid cuyas entradas son variables aleatorias iid de Rademacher. Entonces obtenemos $\lambda_{\max}\left(X_i\right)=d$ así que lo mejor $R$ que podemos elegir es $d$ . Por lo tanto, el límite de probabilidad expresado anteriormente decae a una velocidad no superior a $m/d$ . El mismo tipo es válido si en lugar de Rademacher utilizamos variables aleatorias de media cero uniformemente distribuidas. Sin embargo, se sabe, por ejemplo a partir de la literatura sobre detección comprimida, que para estos ejemplos el límite de probabilidad anterior para $\overline{X}$ decae al menos a una velocidad de $m$ independiente de $d$ .

Mi pregunta es ¿por qué los límites obtenidos en la literatura de teoría de matrices aleatorias no dan las tasas de convergencia más agudas para estos casos sencillos? ¿Se trata de un subproducto de las técnicas empleadas o hay algo fundamental que lo impide?

Además, ¿hay alguna manera de deshacerse de la suposición $\lambda_{\max}\left(X_i\right)\leq R$ a.s. ¿En total? Esto parece demasiado restrictivo, por ejemplo, ni siquiera permite variables aleatorias gaussianas. Quizá sea posible resolver este problema utilizando las versiones relajadas de las desigualdades de concentración como, por ejemplo, la extensión de la desigualdad de McDiarmid propuesta por Kutin'02 pero creo que la primera advertencia persiste.

6voto

itsafire Puntos 511

Un posible puesto relevante ¿Qué tipo de matrices aleatorias tienen valores singulares que decaen rápidamente? . En ese post discutí la distribución del valor propio máximo de una matriz aleatoria basado en el resultado [Johnstone]. Sin embargo, esa respuesta no responde completamente a su pregunta, ya que allí hice hincapié en el hecho de que los valores propios máximos de la mayoría de las matrices aleatorias en aplicaciones (Wishart y Uniforme en un Grassmanian) seguirán la distribución de Tracy-Widom asintóticamente siempre que el tamaño de la matriz crezca con el tamaño de la matriz. $p$ de manera razonable.

$\blacksquare$ 1. ¿Por qué el límite de concentración no funciona para el ejemplo de Rademacher?

Este post planteaba un problema algo más complicado. $\bar X_{n}$ no tiene por qué ser hermitiana ni casi acotada en cada una de sus entradas. Como has observado siempre se ponen supuestos a las matrices aleatorias para convertirla en una matriz de covarianza de algún vector aleatorio .([Mackey] y [Tropp] requiere Hermitian con el fin de utilizar Stein-par argumento; [Vershynin] sobre todo requiere un montón de condiciones isotrópicas para reducir su argumento a una dimensión inferior donde la cola es tractable). La mayoría de los resultados existentes sobre el límite de concentración se centran en el caso en que la matriz aleatoria procede de una matriz de covarianza debido no sólo a su interés aplicado sino también a su positividad . Véase una discusión en [Guédon et al.].

Este es el primer obstáculo por el que los resultados señalados podrían no ser aplicables a $\lambda_{max}(\bar{X})$ . El ejemplo que has construido utilizando variables aleatorias de Rademacher tiene el problema de que no es definida positiva, de hecho su rango es siempre uno independientemente de la dimensión de $x_i$ que elijas, por lo que corresponderá a una distribución degenerada cuyo soporte se concentrará en un espacio de dimensión inferior.

No creo que su comparación tenga ningún sentido "aplicando" resultados para matrices de covarianza a su ejemplo o a las r.v.s. de Rademacher. De hecho, en su ejemplo, supongamos que tenemos $x_i=(r_{i1},r_{i2},r_{i3})$ donde $r_{ij}$ son variables aleatorias iid de Rademacher, entonces se ve fácilmente que los valores propios de $X_i=x_i x_i^{T}$ siempre será $(3,0,0)$ en ese caso no tiene sentido hablar de tasa de convergencia. En $x_i=(r_{i1},r_{i2},\cdots, r_{in})$ no es difícil comprobar que tiene valores propios de $x_i x_i^{T}$ será $n$ con multiplicidad uno y $0$ con multiplicidad $(n-1)$ . Por tanto, por muy grande que sea la v.r. de Rademacher, en realidad es una distribución degenerada unidimensional y $X_i=x_i x_i^{T}$ no puede ser una matriz de covarianza.

Por lo tanto a su pregunta

Mi pregunta es por qué los límites obtenidos en la teoría de matrices aleatorias teoría de matrices aleatorias no dan las tasas de convergencia más casos sencillos? ¿Se trata de un subproducto de las técnicas empleadas o hay ¿hay algo fundamental que lo impide?

La semipositividad de los "casos sencillos" que le impide obtener el control de tipos más nítido. En cuanto al caso $x_i$ son variables aleatorias uniformemente distribuidas con media cero, también podemos demostrar que sus valores propios son $O(1)$ (gran O) con multiplicidad 1 y $o(1)$ (O pequeño) con multiplicidad $(n-1)$ para que se mantiene la positividad, pero sólo un valor propio contribuye al límite de concentración en $O(1)$ orden.

Así que creo que el fracaso en alcanzar el límite más agudo se debe a la naturaleza de tu ejemplo y no a la técnica aplicada en la demostración.

$\blacksquare$ 2. ¿Cuál es el límite de concentración de las matrices gaussianas?

Un límite de concentración agudo está disponible en [Bandeira&van Handel].

Volviendo a la segunda parte de su pregunta, tiene razón en que $\lambda_{max}(X_i)≤R$ ni siquiera permitirán matrices aleatorias gaussianas, pero solemos estudiar un modelo estadístico más general llamado modelo matricial[Pastur et.al], que tiene densidades en forma de $$P_{n,\beta}(d_{\beta}M)=Z_{n,\beta}^{-1}exp\left\{ -\frac{1}{2}n\beta trV(M)\right\} d_{\beta}M$$ [Pastur et.al] (4.1.1) donde $V(\lambda)\geq(2+\epsilon)log(1+|\lambda|)$ es una función continua que garantiza la integrabilidad de la medida matricial y donde $\beta=1$ es equivalente a las matrices simétricas reales y $\beta=2$ es equivalente a Hermitianos. Para el modelo gaussiano que has señalado, podemos realizarlo para $V(\lambda)=\frac{\lambda^2}{2w}$ así que si admites que la integrabilidad es esencial para tal modelo matricial entonces el límite de concentración debe ser de la forma mostrada y ni siquiera puede ser discreto. [Pastur et.al] pp.105-106

De hecho, los valores propios de las matrices gaussianas tienen la siguiente densidad de distribución, como se indica en Pastur et al. $$\tilde{Q}_{n,\beta}^{-1}exp\left\{ -\frac{n\beta}{2}\sum_{l=1}^{n}V(\lambda_{l})\right\} \left|\prod_{1\leq j<k\leq n}\left(\lambda_{j}-\lambda_{k}\right)\right|^{\beta}\prod_{j=1}^{n}d\lambda_{j}\left[H_{\beta}\right]$$ Así que el límite no debe ser ni siquiera más agudo que esta ley de distribución, que proporciona un límite exponencial.

Si como dices en tu post, el $X_i$ son autoadjuntos, entonces en el caso gaussiano el $\bar{X}$ se distribuirá de nuevo como una distribución gaussiana, y la distribución anterior también se aplicará a su $\bar{X}$ . En general, [Johnstone] dio un límite relativamente bueno (bajo una ligera restricción en la dimensión $p$ ). Véase el post enlazado ( ¿Qué tipo de matrices aleatorias tienen valores singulares que decaen rápidamente? ).

Lo que quiero decir con esto es que primero deberíamos averiguar la distribución de $\bar{X}$ y luego discutir qué tipo de límite de concentración se aplica. También es posible que, aunque los supuestos del límite de concentración se cumplan con $X_i$ pero no satisfecho por $\bar{X}$

$\blacksquare$ 3.Extensión del resultado de diferencia débilmente acotada de [Kutin].

Tras un examen detenido de [Kutin], su argumento no me parece muy convincente. Las condiciones de diferencia débilmente acotada (Def. 2.3 en [Kutin]) también requerían que $|X(\omega)-X(\omega')|<b_k$ cuando $\omega$ y $\omega'$ difieren sólo en la coordenada k-ésima además de la condición de tipo McDiarmid $$Pr_{(\omega,v)\in\Omega\times\Omega_{k}}(\left|X(\omega)-X(\omega')\right|<c_{k})\geq1-\delta$$ si utiliza $\Omega_k$ como los espacios de probabilidad asociados a las variables aleatorias gaussianas $X_k$ aunque el $\delta$ la parte probabilística de la condición de diferencia débilmente acotada se cumple, la parte acotada exacta $|X(\omega)-X(\omega')|<b_k$ de la condición de límite débil falla para dos independiente Variable aleatoria gaussiana para cualquier secuencia acotada ${b_k}$ .

Así que no creo que se pueda aplicar directamente el resultado de [Kutin]. Y por cierto, si tienes oportunidad de leer esto, ¿podrías añadir la bibliografía que mencionas en OP? Gracias

Referencia

[Vershynin] http://www-personal.umich.edu/~Vershyninv/papers/non-asymptotic-rmt-plain.pdf

[Tropp]Tropp, Joel A. "User-friendly tail bounds for sums of random matrices". Fundamentos de matemática computacional 12.4 (2012): 389-434.

[Johnstone]Johnstone, Iain M. "Multivariate analysis and Jacobi ensembles: Largest eigenvalue, Tracy-Widom limits and rates of convergence". Annals of statistics 36.6 (2008): 2638.(Diapositivas: http://www.stat.harvard.edu/NESS10/Johnstone-slides.pdf )

[Pastur et.al]Pastur, Leonid Andreevich, Mariya Shcherbina y Mariya Shcherbina. Eigenvalue distribution of large random matrices. Vol. 171. Providence, RI: American Mathematical Society, 2011.

[Kutin]Kutin, Samuel. "Extensiones a la desigualdad de McDiarmid cuando las diferencias están acotadas con alta probabilidad". Departamento de Informática, Universidad de Chicago, Chicago, IL. Informe técnico TR-2002-04 (2002).

[Bandeira&van Handel]Bandeira, Afonso S., y Ramon van Handel. "Sharp nonasymptotic bounds on the norm of random matrices with independent entries". The Annals of Probability 44.4 (2016): 2479-2506.

[Guédon et al.]Guédon, Olivier, et al. "The central limit theorem for linear eigenvalue statistics of the sum of independent random matrices of rank one". Spectral Theory and Differential Equations. Amer. Math. Soc. Transl. Ser 2.233 (2014): 145-164.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X