En este famoso post " Las distribuciones gaussianas son burbujas de jabón "se afirma que la distribución de los puntos se parece a una pompa de jabón (donde es menos denso en el centro y más denso en el borde) en lugar de un molde donde es más denso en el centro. Yo esperaría que es más denso en el centro como lo es en dos o tres dimensiones.
A partir del post, no he podido entender por qué es así. Utiliza tres cifras que no he podido descifrar.
¿Puede alguien aclarar estas cifras y la cuestión principal de por qué se parece a una pompa de jabón en altas dimensiones?
Respuestas
¿Demasiados anuncios?No puedo responder sobre lo que afirma el famoso post del OP, pero consideremos el caso más simple de uniforme distribuciones en el disco de la unidad: $(X,Y)$ está uniformemente distribuida en el disco unitario (es decir, $f(X,Y)(x,y) = \frac 1\pi$ para $x^2+y^2 < 1$ . ¿Cuál es la probabilidad de que $(X,Y)$ está más cerca del círculo unitario, es decir, más cerca del límite del disco unitario que del origen (centro del círculo)? Pues bien, sólo aquellos puntos que se encuentran en el círculo de radio $\frac 12$ están a una distancia $< \frac 12$ desde el origen, por lo que todos los puntos fuera de este círculo más pequeño están a una distancia $> \frac 12$ desde el origen. Es un cálculo fácil llegar a $$P\left(\frac 12 < \sqrt{X^2+Y^2} < 1\right) = 1- P\left(0\leq \sqrt{X^2+Y^2} < \frac 12\right) = 1 - \frac 1\pi \cdot \pi\left(\frac 12\right)^2 = \frac 34.$$ Un cálculo similar para una distribución uniforme en el interior de una esfera unitaria en 3 dimensiones (la pdf tiene valor $\frac{3}{4\pi}$ en el interior) da \begin{align} P\left(\frac 12 < \sqrt{X^2+Y^2+Z^2} < 1\right) &= 1- P\left(0\leq \sqrt{X^2+Y^2+Z^2} < \frac 12\right)\\ &= 1 - \frac{3}{4\pi} \cdot \frac{4\pi}{3}\left(\frac 12\right)^3\\ &= \frac 78. \end{align} Generalizar a $n > 3$ dimensiones y recordando que el volumen de un $n$ -hiperesfera o radio dimensional $r$ es proporcional a $r^n$ obtenemos por cálculos muy similares que $$P\left(\frac 12 < \sqrt{\sum_{i=1}^n X_i^2} < 1\right) = \frac{2^n-1}{2^n},$$ es decir, más de la masa de probabilidad_ se encuentra más cerca de la superficie de la esfera que al origen. Como comentario final, obsérvese que el $X_i$ son variables aleatorias NIBNID, acrónimo de Not Independent But Nonetheless Identically Distributed.
Volviendo a las variables aleatorias gaussianas estándar IID, la densidad conjunta es pas distribuido uniformemente, pero tiene un pico muy pronunciado en el origen. Pero, hay tan poco volumen cerca del centro de una hiperesfera en comparación con más cerca de la superficie que cuando integramos la densidad sobre el volumen de una hiperesfera de pequeño radio $r$ encontrar $P\left(\sqrt{\sum_{i=1}^n X_i^2} < r\right)$ , más de esta masa de probabilidad se obtiene a partir de las pequeñas contribuciones de la periferia (hay tantos de ellos) y muy poco de las escasas pero mayores contribuciones del núcleo; es decir, la mayor parte de la masa de probabilidad se encuentra más cerca de la piel de la naranja que del centro. Pero las cosas cambian a medida que $r$ aumenta. Dado que $\sum_{i=1}^n X_i^2$ es un $\chi^2$ variable aleatoria con $n$ grados de libertad (con media $n$ y varianza $2n$ ), que para grandes $n$ puede aproximarse como una variable aleatoria gaussiana con la misma media y varianza) la mayor parte de su probabilidad se encontraba en el intervalo $\left[n-\sqrt{18n},n-\sqrt{18n}\right] = [\mu-3\sigma,\mu+3\sigma]$ . Dicho de otro modo la cantidad $P\left({\sum_{i=1}^n X_i^2} < r^2\right)$ está cerca de $0$ para pequeños $r$ (el espacio casi vacío dentro de la pompa de jabón), y luego (considerado en función de $r$ ) aumenta muy rápidamente con $r$ en las proximidades de $r=\sqrt n$ (se trata de la fina piel de la burbuja donde se encuentra la mayor parte de la masa) a casi $1$ y luego muy lentamente hasta su valor asintótico de $1$ (el espacio casi vacío fuera de la burbuja). En resumen, la analogía de la pompa de jabón es muy adecuada para las distribuciones gaussianas; casi toda la masa de probabilidad de la fdp conjunta de $n$ variables aleatorias gaussianas estándar se encuentra en una capa muy fina de radio $\approx \sqrt n$ y hay muy poca masa de probabilidad que sea pas en la cáscara: tanto el interior como el exterior de la cáscara están vacíos en su mayor parte, como ocurre con las pompas de jabón.
El post que enlazas se refiere al uso de la distribución normal en problemas de alta dimensión. Así, supongamos que usted está trabajando en un espacio $\mathbb{R}^m$ donde la dimensión $m$ es grande. Sea $\boldsymbol{I}$ sea el $m$ -y consideremos un vector aleatorio normal:
$$\mathbf{X} \equiv (X_1,...,X_m) \sim \text{N}(\mathbf{0}, \sigma^2 \boldsymbol{I}).$$
Una propiedad bien conocida de esta distribución es que un vector aleatorio normal centrado y normado se distribuye uniformemente en la esfera unitaria. Es decir, si dejamos que $\mathcal{S}_r^m \equiv \{ \mathbf{x} \in \mathbb{R}^m | \sum x_i^2 = r^2 \}$ denotan el $m$ -con radio $r$ entonces tenemos:
$$\frac{\mathbf{X}}{||\mathbf{X}||} \sim \text{U}(\mathcal{S}_1^m).$$
También es bien sabido que la distribución de la norma a escala del vector aleatorio es:
$$\frac{||\mathbf{X}||}{\sigma \sqrt{m}} \sim \frac{\chi_m}{\sqrt{m}}.$$
En $m \rightarrow \infty$ el lado derecho converge en probabilidad a uno. Así, para grandes $m$ que tenemos:
$$\mathbf{X} \overset{\text{Approx}}{\sim} \text{U}(\mathcal{S}_{\sigma \sqrt{m}}^m)$$
Esto demuestra que cuando $m$ se hace grande, los puntos de este vector aleatorio normal se distribuyen aproximadamente en la superficie de una esfera unitaria de radio $\sigma \sqrt{m}$ . A esto se refiere el post enlazado cuando señala que "...en dimensiones altas, las distribuciones gaussianas son prácticamente indistinguibles de las distribuciones uniformes en la esfera unidad".
No creo que sea cierto que "una distribución gaussiana en dimensiones superiores parezca una pompa de jabón". Pero veamos primero por qué, de acuerdo con algunas de las detalladísimas respuestas anteriores, uno podría verse inducido a pensar así.
En coordenadas cartesianas en $D$ dimensiones, tras la normalización, la densidad de probabilidad tiene el aspecto siguiente $$ p(\vec{X}) ~d\vec{X} \sim V^{-D/2} \exp(-\frac{||\vec{X}||}{2V}) ~d\vec{X}$$ donde $V$ es la varianza 1D de cada variable.
Podemos reescribir esto en coordenadas esféricas, y utilizar la simetría esférica para integrar sobre las esferas dimensionales D-1. Omitiré el factor correspondiente al volumen de la esfera D-1 (no el factor bola que es el "interior" de la esfera). La distribución radial es $$ p(r)dr \sim V^{-\frac{D}2} r^{D-1} \exp(-\frac{r^2}{2V})~dr = V^{-\frac{D}2} r^{D-2} \exp(-\frac{r^2}{2V}) ~ \frac12 dr^2, ~r > 0 $$ Presentación de $z = \frac{r^2}2$ la distribución es: $$p(z)dz \sim V^{-\frac{D}2} z^{\frac{D}2-1} \exp(-\frac{z}{V})~dz$$ que no es más que una distribución Gamma (en $z$ ). Ahora puede buscar https://en.wikipedia.org/wiki/Gamma_distribution o calcular el radio medio (modulando algunos factores irrelevantes y $\pm 1$ ): $$<r> \sim D \sqrt{V}$$ y la varianza del radio $<(r-<r>)^2>$ : $$var(r) \sim DV$$ lo que significa que la desviación típica de $r$ $$SD(r) \sim\sqrt{DV}$$ . En relativa SD: $$ \frac{SD(r)}{<r>} \sim \frac1{\sqrt{D}}$$ que, a medida que aumenta el número de dimensiones $D$ aumenta, tiende a 0.
Así que creemos que parece una burbuja. Pero, la pregunta es, como distribución, ¿la distribución radial $\rightarrow \delta(r-r_0)$ en el límite $D\rightarrow\infty$ ?
Ahora volvamos a esa distribución D-dimensional en coordenadas cartesianas. Tiene un pico en el origen y disminuye a medida que aumenta la distancia al origen. No se parece en nada a una burbuja. Si tuviéramos una densidad de masa distribuida así, no encontraríamos ninguna burbuja que tuviéramos que perforar ni ningún "engrosamiento" en $r_0$ de hecho, la densidad seguiría aumentando a medida que te desplazaras hacia el centro. Sólo cuando integrar sobre las cáscaras de radio fijo y colapsarlas en un único punto radial obtenemos la desviación típica relativa tendiendo a 0 con el aumento de la dimensionalidad.
Así que no, no es cierto que "una distribución gaussiana en dimensiones superiores se parezca a una pompa de jabón".
Realmente creo que la visión de una burbuja vacía es engañosa.
(tl-dr: En lugar de una burbuja vacía creo que es mejor decir que se asemeja a una estrella con n-vértices donde $n\rightarrow\infty$ o algún tipo de estructura fractal no vacía con la longitud de su borde yendo a $\infty$ ). Pero aún más denso en el centro.
Cuanto mayor es la dimensión, hay más puntos cerca del borde de una n-esfera que de su centro (fácil de ver al pasar de 2D a 3D), pero para una distribución normal multivariante: $$P\left( \left\{ \text{n-sphere center in} \left(0,...,0\right) \text{ and } r=\delta \right\}\right ) > P\left( \left\{ \text{n-sphere center in} \left(\delta,...,0\right) \text{ and } r=\delta \right\}\right )$$ Siempre, para cualquier dimensión, para cualquier $\delta$ la probabilidad es mayor cuanto más cerca del centro (para zonas similares, por supuesto). Por lo tanto más denso en el centro, pero tiene menos centro (el centro nunca es 0 porque recuerde $dimension \rightarrow \infty$ y no $dimension=\infty$ ).
Sí... si eliges un punto al azar es más probable que esté en la frontera que en el centro, pero no porque la probabilidad en el centro sea "vacía como una burbuja", sino simplemente porque hay más puntos cerca de la frontera.
Esto ya ocurre en 2D: en una esfera 2D de radio=1 "hay" $\pi/4$ puntos a una distancia ½ del centro, mientras que hay $3/4*\pi$ puntos a una distancia inferior a ½ frontera. Y en realidad con una distribución normal bivariante la probabilidad de elegir un punto junto a la frontera es mayor que elegir uno en el centro (véase el código más abajo).
Otra forma de visualizarlo es comparando una esfera 2D vrs una estrella 2D, como la estrella tiene "Más borde" la probabilidad de elegir un punto junto al borde en una estrella es mayor, pero el inicio no está "vacío".
En lugar de una burbuja vacía será mejor decir: se parece a una estrella con n vértices donde $n\rightarrow\infty$ o algún tipo de estructura fractal no vacía con la longitud de su borde yendo a $\infty$ . Pero aún más denso en el centro.
EP: Utilizando r
library(shotGroups)
#using 2d multivariate normal distribution
#probability of choosing a point inside the cercle with radius delta=0.5
inner_cercle_prob <- pmvnEll(r=0.5, sigma=diag(2), mu=c(0,0), e=diag(2), x0=c(0,0))
#probabiliyt of choosing a point inside the cercle of radius=1
full_cercle_prob <- pmvnEll(r=1, sigma=diag(2), mu=c(0,0), e=diag(2), x0=c(0,0))
#probability of choosin a point inside the cercle but closer to the border
corona_prob=full_cercle_prob-inner_cercle_prob
#probability of choosin a point outside the cercle
outside_cercle_prob=1-full_cercle_prob
outside_cercle_prob
[1] 0.6065307
corona_prob
[1] 0.2759662
inner_cercle_prob
[1] 0.1175031
#but for cercles with same radius, the one closer to the center as higher prob.
pmvnEll(r=0.5, sigma=diag(2), mu=c(0,0), e=diag(2), x0=c(0,0))
[1] 0.1175031
pmvnEll(r=0.5, sigma=diag(2), mu=c(0,0), e=diag(2), x0=c(0.5,0))
[1] 0.1044914
Este es un viejo post con algunas grandes respuestas, pero me gustaría dar una perspectiva diferente.
Supongamos que tomamos una muestra $x$ de $\mathcal{N}(\vec0, \mathcal{I})$ en $D$ dimensiones. Si la gaussiana de alta dimensión es hueca, entonces eso significaría al menos una coordenadas de nuestra muestra $x$ se desvía de la media. En la FDA de la distribución normal la posibilidad de $x$ que la primera coordenada se encuentre dentro de una desviación estándar es de aproximadamente $~68.2\%$ . ¿Cuál es la probabilidad de que ambos ¿las coordenadas primera y segunda están dentro de una desviación estándar? Son independientes, por lo que $0.682^2$ . Por extensión, la probabilidad de que una muestra en $D$ -está dentro de una desviación estándar a lo largo de cada eje es $0.68^D$ . Naturalmente, esto va a 0 muy rápidamente.