91 votos

¿Existe un proceso aleatorio natural que se sepa rigurosamente que produce la ley de Zipf?

Ley de Zipf es la observación empírica de que en muchas poblaciones reales de n objetos, el $k^{th}$ objeto más grande tiene un tamaño proporcional a $1/k$ al menos para $k$ significativamente menor que $n$ (y a veces también hay que asumir $k$ algo mayor que 1). Es un caso especial de una distribución de ley de potencia (en la que $1/k$ se sustituye por $1/k^\alpha$ para algún exponente $\alpha$ ), pero lo destacable es que en muchos casos empíricos (por ejemplo, frecuencias de palabras o tamaños de ciudades), el exponente es muy cercano a 1.

Mi pregunta es: ¿existe algún proceso aleatorio "natural" (por ejemplo, un proceso de nacimiento-muerte) que se pueda demostrar rigurosamente (o al menos conjeturar) para generar poblaciones de n cantidades no negativas $X_1,\ldots,X_n$ (con n grande pero posiblemente variable) que obedecen la ley de Zipf en promedio con exponente 1? Hay muchas formas naturales de generar procesos que tengan colas de ley de potencia (por ejemplo, considere n cantidades positivas $X_1,\ldots,X_n$ evolucionando por copias iid del movimiento log-Browniano), pero no veo cómo asegurar que el exponente sea 1 sin ajustar artificialmente los parámetros para forzar esto.

Lo ideal sería que tales procesos fueran al menos algo plausibles como modelos de una situación empírica en la que se observara que se cumple la ley de Zipf, como el tamaño de las ciudades, pero yo me conformaría con cualquier ejemplo no artificial de proceso.

Un obstáculo aquí es que la propiedad del exponente uno no es invariante con respecto a la toma de potencias: si $X_1,\ldots,X_n$ obedece a la ley de Zipf con exponente uno, entonces para cualquier $\beta>0$ , $X_1^\beta,\ldots,X_n^\beta$ obedece a la ley de potencia con un exponente diferente $\beta$ . Así que cualquier proceso aleatorio que uno propondría para la ley de Zipf debe ser de alguna manera muy diferente de sus poderes.

45voto

user7311 Puntos 9

No estoy seguro de si esto es una "respuesta" a tu pregunta, pero recuerdo haber visto en algún sitio que alguien había demostrado que si creas un documento seleccionando los caracteres a...z más un carácter de espacio con frecuencia uniforme, entonces las "palabras" de dicho documento tienen una distribución de frecuencias que sigue la Ley de Zipf. (Una pequeña anécdota: cuando era estudiante, asistí a un curso de "Lógica inductiva" impartido por Zipf. Recuerdo que estaba bastante molesto porque se pasaba gran parte del tiempo dando conferencias sobre "su" ley y haciéndonos formar grupos que, como parte de nuestro trabajo en clase, recopilaban estadísticas para probarla :-)

(Comentarios añadidos) Recordé que cuando probamos las leyes de Zipf para poblaciones de ciudades en aquel entonces (¡hace más de 50 años!) los resultados fueron bastante buenos, es decir, la población de la n-ésima ciudad era bastante cercana a $1/n$ veces la población del primero en muchos países. Decidí comprobar si seguía siendo así. En el caso de EE.UU. sigue siendo así:

http://www.infoplease.com/ipa/A0763098.html#axzz0zuwyduxq

Sin embargo, en el caso de China, está muy lejos, ni siquiera se aproxima:

http://en.wikipedia.org/wiki/List_of_cities_in_the_People%27s_Republic_of_China_by_population

Por supuesto, la población de las ciudades chinas ha cambiado rápidamente debido a las migraciones hacia ellas desde el campo, y quizá la Ley de Zipf sólo se aplique a situaciones estables cuando las cosas están en equilibrio.

19voto

Rakesh Juyal Puntos 203

A raíz del comentario de Gowers, un Artículo PRL de 1998 (versión arxiv aquí ) analiza el mecanismo que parece subyacer a las estadísticas de la ley de Zipf para las ciudades:

W ley de Zipf es, por un lado, la más más sencilla posible (interacción por pares). Por otra, es bastante especial, ya que es la "orden más bajo" de interacción que no conduce a la formación de una megaciudad, que atrae a una buena parte de toda la población.

17voto

Cheluis Puntos 108

He aquí un modelo de nacimiento simple que conduce a un comportamiento de ley de potencia con exponente 1.

Empezar con un solo individuo de tipo 1.

Reproducción como sigue:

(a) cada individuo produce "descendencia clónica" (un hijo del mismo tipo que él) a razón de 1.

(b) además, cada individuo del tipo 1 produce "descendencia mutante" (un hijo de un nuevo tipo no visto antes) a razón de $\mu$ donde $\mu$ es cualquier constante positiva. Así, el primer mutante se llamará tipo 2, el segundo tipo 3, etc.

Sea $N_k(t)$ sea el número de individuos de tipo $k$ vivo en el momento $t$ .

Una vez que el primer individuo de tipo $k$ ha nacido, el tipo- $k$ familia crece exponencialmente. Además, el primer individuo de tipo $k$ nace en el momento $\log k + O(1)$ .

De esto es bastante fácil obtener que $N_k(t)$ se comporta como $e^t/k$ . Más concretamente, para cualquier $k$ la cantidad $ke^{-t}N_k(t)$ converge como $t\to\infty$ con probabilidad 1 a alguna variable aleatoria $W_k$ y la secuencia de distribuciones de $W_k, k\geq 1$ está apretado.

Reordenación del $N_k(t)$ en orden decreciente sigue dejando esencialmente la misma tasa de descomposición.

Así que para grandes $t$ , $N_k(t), k \geq 1$ obedece a la ley de Zipf (para un intervalo de $k$ que depende adecuadamente de $t$ , digamos $ k \ll e^t $ ).

16voto

Jeff Handley Puntos 1907

No estoy seguro de si este modelo es lo suficientemente natural, pero si \pi es una permutación aleatoria de {1,2..n}, y N_i es el número de ciclos de tamaño i en \pi entonces, (N_1, N_2...) son aproximadamente independientes Poisson(1), Poisson(1/2), Poisson(1/3)... de ahí que probablemente aunque N_i se ordenen, sus tamaños serían como 1, 1/2, 1/3 etc.

6voto

Paul May Puntos 1

Hay un artículo reciente en arXiv de Schwab et al. que parece contener una buena derivación de la ley de Zipf, que surge en sistemas aleatorios afectados por una variable oculta (algo así como entradas comunes a una red neuronal): http://arxiv.org/abs/1310.0448

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X