La ley de los grandes números no es una afirmación sobre la probabilidad en el sentido intuitivo, sino sobre funciones que satisfacen los axiomas de Kolmogorov. Tales funciones no tienen por qué tener nada que ver con frecuencias o estadísticas.
Por ejemplo, consideremos el intervalo $[0, 1]$ . Definir una función $L$ en subconjuntos medibles de este intervalo mediante $L(A)=\text{length of $ A $}$ . Nótese que no estoy imponiendo ningún tipo de interpretación sobre $L$ como una "probabilidad", como la probabilidad de acertar $A$ si lanzaras un dardo en el intervalo, o algo así. Es sólo la longitud geométrica, pero sin embargo es fácil ver que satisface los axiomas de Kolmogorov. Ahora, bajo la función $L$ resulta que $d_n(x) = \text{the $ n $-th binary digit of $ x $}$ define una secuencia de variables aleatorias i.i.d. Bernoulli, cada una con "probabilidad" $0.5$ que en nuestro caso sólo significa que la longitud del conjunto en el que $d_n=1$ es $0.5$ . La ley de los grandes números nos dice ahora que la longitud del conjunto de números cuyas expansiones binarias tienen igual proporción asintótica de unos y ceros es $1$ . Fíjate en que la estadística no entra en escena: sólo hacemos geometría.
Podemos intentar relacionar los axiomas de Kolmogorov con las frecuencias diciendo algo así:
Considera algún experimento repetible. Para decir que un conjunto dado de resultados tiene probabilidad $p$ significa que si se repite el experimento un número muy grande de veces, se obtendrá un resultado en ese conjunto aproximadamente $p$ del tiempo.
Cómo podemos justificar tal predicción es una cuestión aparte. La cuestión es: si do asuma esta predicción, ¿qué puede deducirse de ella?
Si asumimos lo anterior, entonces la función $P(A) = \text{long term frequency of $ A $}$ satisface los axiomas de Kolmogorov.
Como señalas, esto parece equivalente a asumir simplemente la ley de los grandes números. Pero eso no es muy el caso. En realidad, la LLN nos permite relajar ligeramente la predicción anterior.
Supongamos que queremos aplicar el LLN al lanzamiento de una moneda. En ese caso, el "experimento repetible" en cuestión es el experimento de "lanzar una moneda un gran número de veces", llamémosle "serie de lanzamientos". La LLN es entonces un enunciado sobre las funciones de Kolmogorov en el conjunto de todos los resultados posibles de la serie de lanzamientos.
Ahora, por supuesto, si asumimos que si lanzamos la moneda un gran número de veces, obtendremos cara aproximadamente la mitad de las veces, esto es equivalente a asumir el LLN. Pero gracias a la LLN, podemos suponer algo ligeramente más débil que eso, y obtener la LLN como consecuencia lógica. A saber, sólo necesitamos la siguiente suposición:
Si realizo un gran número de series de flip, y sólo miro los resultados de las $n$ -ésima moneda cada vez, entonces esa moneda saldrá cara aproximadamente la mitad de las veces.
Esencialmente, si realizas muchas muchas series de flip, y representas los resultados en una tabla donde cada fila es una serie, así:
$$ HHHHTTHTHTTTHTHHHTH... \\ TTHTHHTHHTHTHHTHTHT... \\ THHHTHTHTHHTHTHHHTT... \\ THTHTHHTHTHTHTHTHHT... \\ THTHTHTHTHHTHTHHTHT... \\ \vdots $$
Entonces la suposición que estás haciendo es que hay aproximadamente $50\%$ cabezas en cada columna y el LLN (si también se hace el supuesto de independencia) permite concluir que, por lo tanto, también hay aproximadamente $50\%$ cabezas en cada fila .
Hay que admitir que si vas a hacer una suposición sobre la $n$ -ésima moneda lanzada en la serie, parece que también se puede hacer la misma suposición acerca de la propia serie de lanzamientos. Pero recuerde que el hecho de que las variables aleatorias sean i.i.d. no significa que tengan que representar el mismo experimento físico. Por ejemplo, imagina que tienes una gran caja con montones de monedas diferentes, y que todas están numeradas, por lo que se pueden distinguir. En ese caso, la LLN le permite convertir un conjunto de suposiciones sobre las monedas individuales en una conclusión sobre todas las monedas en conjunto.