23 votos

¿Una visión de sistemas dinámicos del Teorema Central del Límite?

(Originalmente publicado en MSE).

He visto que en muchas discusiones heurísticas del teorema central del límite clásico se habla de la distribución normal (o de cualquiera de las distribuciones estables) como un "atractor" en el espacio de las densidades de probabilidad. Por ejemplo, considere estas frases en la parte superior de Wikipedia tratamiento :

En un uso más general, un teorema central del límite es cualquiera de un conjunto de teoremas de convergencia débil en teoría de la probabilidad. Todos ellos expresan el hecho de que una suma de muchas variables aleatorias independientes e idénticamente distribuidas (i.i.d.), o alternativamente, variables aleatorias con tipos específicos de dependencia, tenderá a distribuirse de acuerdo con uno de un pequeño conjunto de distribuciones del atractor . Cuando la varianza de las variables i.i.d. es finita, la distribución del atractor es la distribución normal.

Este lenguaje de sistemas dinámicos es muy sugerente. Feller también habla de "atracción" en su tratamiento del CLT en su segundo volumen (me pregunto si esa es la fuente del lenguaje), y Yuval Flimus en esta nota incluso habla de la "cuenca de atracción". (No creo que realmente quiera decir "la forma exacta del cuenca de atracción es deducible de antemano", sino "la forma exacta de la Atractor es deducible de antemano"; aun así, el lenguaje está ahí). Mi pregunta es: ¿pueden precisarse estas analogías dinámicas? No conozco ningún libro que las incluya, aunque muchos libros hacen hincapié en que la distribución normal es especial por su estabilidad bajo convolución (así como por su estabilidad bajo la transformada de Fourier). Esto es básicamente decirnos que la normal es importante porque es un punto fijo. La CLT va más allá y nos dice que no es sólo un punto fijo, sino un atractor.

Para precisar esta imagen geométrica, imagino que el espacio de fase es un espacio de funciones infinito (el espacio de las densidades de probabilidad) y el operador de evolución es una convolución repetida con una condición inicial. Pero no tengo ni idea de los tecnicismos necesarios para que esta imagen funcione ni de si merece la pena seguir adelante.

Supongo que, como no encuentro ningún tratamiento que siga explícitamente este enfoque, debe de haber algo mal en mi sensación de que se puede hacer o de que sería interesante. Si es así, me gustaría saber por qué.

EDITAR : Hay tres preguntas similares en Math Stack Exchange y MathOverflow que pueden interesar a los lectores:

16voto

Matt Puntos 155

Después de indagar un poco en la bibliografía, animado por la respuesta de Kjetil, he encontrado algunas referencias que sí se toman en serio el enfoque de sistemas geométricos/dinámicos del CLT, además del libro de Y. Sinai. Publico lo que he encontrado para otros que puedan estar interesados, pero aún espero escuchar a un experto sobre el valor de este punto de vista.

La influencia más significativa parece proceder de la obra de Charles Stein. Pero la respuesta más directa a mi pregunta parece proceder de Hamedani y Walter, que establecen una métrica en el espacio de las funciones de distribución y demuestran que la convolución genera una contracción, que da lugar a la distribución normal como único punto fijo.


AÑADIDO 19 de octubre de 2018.

Otra fuente de este punto de vista es la obra de Oliver Knill Probabilidad y procesos estocásticos con aplicaciones p. 11 (énfasis añadido):

Los procesos de Markov suelen verse atraídos por puntos fijos del operador de Markov. Estos puntos fijos se denominan estados estacionarios. Describen equilibrios y suelen ser medidas con entropía máxima. Un ejemplo es el operador de Markov $P$ que asigna a una densidad de probabilidad $f_y$ la densidad de probabilidad de $f_{\overline{Y+X}}$ donde $\overline{Y+X}$ es la variable aleatoria $Y + X$ normalizado para que tenga media $0$ y varianza $1$ . Para la función inicial $f= 1$ la función $P^n(f_X)$ es la distribución de $S^{*}_n$ la suma normalizada de $n$ Variables aleatorias IID $X_i$ . Este operador de Markov tiene un único punto de equilibrio, la distribución normal estándar. Tiene entropía máxima entre todas las distribuciones de la recta real con varianza $1$ y media $0$ . El teorema del límite central dice que el operador de Markov $P$ tiene la distribución normal como único punto fijo de atracción si se toma la topología más débil de convergencia en la distribución sobre $\mathcal{L}^1$ . Esto también funciona en otras situaciones. Para variables aleatorias con valores circulares, por ejemplo, la distribución uniforme maximiza la entropía. Por lo tanto, no es sorprendente que exista un teorema del límite central para variables aleatorias con valores circulares con la distribución uniforme como distribución límite.

9voto

kjetil b halvorsen Puntos 7012

El texto "Probability Theory An Introductory Course" de Y Sinai (Springer) trata la CLT de esta manera.

La idea es (de memoria ...) que

  1. La distribución normal maximiza la entropía (entre las distribuciones con varianza fija)

  2. El operador de promediación $A(x_1,x_2) = \frac{x_1+x_2}{\sqrt{2}}$ mantiene la varianza y aumenta la entropía ...

y el resto es técnica. Así, entonces usted consigue el ajuste de los sistemas dinámicos de la iteración de un operador.

3voto

ryan Puntos 111

Gran pregunta; a menudo me lo he preguntado. Una idea algo relacionada se explica en nuestro artículo Dynamical attraction to stable processes, Ann. Inst. H. Poincaré Probab. Statist. Volume 48, Number 2, 2012, pp 551-578 (Albert Fisher y Marina Talet) véase https://www.ime.usp.br/~afisher/ La idea es convertir la noción probabilística de Levy de "dominio de atracción" para procesos estables (incluidos los gaussianos) en dinámica real. Lo hacemos para el proceso estable completo, en lugar de sólo para la distribución estable, porque allí la propiedad de escala de estos procesos autosimilares tiene una interpretación dinámica: es un flujo Bernoulli de entropía infinita. Entonces un paseo aleatorio con incrementos en el dominio de atracción converge a esto en el sentido de que una trayectoria de paseo es a.s. un punto genérico para este flujo. No utilizamos un mapa de contracción en sí, pero es una cuestión interesante. ver si algo así podría ser útil. (Nuestro teorema demuestra un a.s.i.p. en densidad logarítmica; el caso de variación regular es especialmente complicado y en él tenemos que aplicar un cambio temporal apropiado). aplicar un cambio temporal adecuado). Véanse también los artículos relacionados en la página web anterior.

La ventaja de trabajar con procesos es que se tiene un flujo real. Para la distribución gaussiana, no sólo es un punto fijo para la Transformada de Fourier, sino para el operador de convolución (convenientemente reescalado). La primera es intrigante, pero no hay forma de que la iteración ayude, porque es una involución: aplicándola dos veces se vuelve atrás. La convolución realmente tiene sentido, ya que no es más que la distribución de un paseo aleatorio. Sin embargo, es una acción de semigrupo que es menos dulce desde el punto de vista dinámico que un flujo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X