Con frecuencia se afirma (en los libros de texto, en Wikipedia) que la "Ley de los grandes números" en la teoría matemática de la probabilidad es una afirmación sobre las frecuencias relativas de ocurrencia de un evento en un número finito de ensayos o que "relaciona el concepto axiomático de probabilidad con el concepto estadístico de frecuencia". ¿No se trata de un error metodológico de atribuir una interpretación a un término matemático, quizás apoyándose demasiado en el lenguaje colorido, que no se desprende en absoluto de cómo se define matemáticamente este término? Recordemos la derivación típica de la WLLN:
Dejemos que $X_1, X_2, ..., X_n$ sea una secuencia de n variables aleatorias independientes e idénticamente distribuidas con la misma media finita $\mu$ y con varianza $\sigma^2$ y dejar:
$\overline{X}=\tfrac1n(X_1+\cdots+X_n)$
Lo tenemos:
$E[\overline{X}] = \frac{E[X_1+...+X_n]}{n} = \frac{E[X_1]+...+E[X_n]}{n} = \frac{n\mu}{n} = \mu$ $Var[\overline{X}] = \frac{Var[X_1+...+X_n]}{n^2} = \frac{Var[X_1]+...+Var[X_n]}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}$
Y de la desigualdad de Chebyshev:
$P(|\overline{X}-\mu|>\epsilon) \le \frac{\sigma^2}{n\epsilon^2}$
Y entonces se dice que X converge en probabilidad a $\mu$ .
Consideremos ahora cuál es el significado estricto de esta expresión en el marco axiomático en el que se deriva:
$P(|\overline{X}-\mu|>\epsilon) \le \frac{\sigma^2}{n\epsilon^2}$
$P()$ en todas las partes de la derivación, sólo se sabe que es un número que satisface los axiomas de Kolmogorov, por lo que es un número entre 0 y 1, y así sucesivamente, pero ninguno de los axiomas introduce ningún equivalente teórico de la noción intuitiva de frecuencia. Si se hacen suposiciones adicionales sobre $P()$ no se hacen, la frase obviamente no puede ser interpretada en absoluto, pero lo que también es importante el significado teórico $\mu$ no es necesariamente el valor medio en un número infinito de ensayos, $\overline{X}$ no es necesariamente el valor medio de n ensayos, y así sucesivamente. Consideremos un experimento en el que se lanza repetidamente una moneda justa: obviamente, nada en los axiomas de Kolmogorov obliga a utilizar 1/2 para la probabilidad de salir cara, se podría utilizar también $1/\sqrt{\pi}$ Sin embargo, la derivación sigue "funcionando", salvo que el significado de las distintas variables no coincide con sus interpretaciones intuitivas. El $P()$ podría seguir significando algo, podría ser una cuantificación de una creencia absurda mía, la derivación matemática sigue siendo verdadera a pesar de todo, en el sentido de que mientras el $P()'s$ satisfacen los axiomas, los teoremas sobre otros $P()'s$ y con los axiomas de Kolmogorov proporcionando sólo restricciones débiles y no una definición de $P()$ es básicamente una manipulación de símbolos.
Esta interpretación de la "frecuencia relativa" que se da con frecuencia parece basarse en una suposición adicional, y esta suposición parece ser una forma de la propia ley de los grandes números. Consideremos este fragmento de los Grundbegriffe de Kolmogorov sobre la aplicación de los resultados de la teoría de la probabilidad al mundo real:
Aplicamos la teoría de la probabilidad al mundo real del experimento de la siguiente manera:
...
4) Bajo ciertas condiciones, que no discutiremos aquí, podemos suponer que el evento A que puede o no ocurrir en las condiciones S, se le asigna un número real P(A) que tiene la siguiente características:
a) Se puede estar prácticamente seguro de que si el complejo de condiciones S se repite un gran número de veces, n, entonces si m es el número de ocurrencias del evento A, la relación m/n diferirá muy poco de P(A).
Lo que parece equivalente a introducir la ley débil de los grandes números en una forma particular, ligeramente diferente, como un axioma adicional.
Mientras tanto, muchas fuentes reputadas contienen afirmaciones que parecen completamente opuestas al razonamiento anterior, por ejemplo Wikipedia:
De la ley de los grandes números se deduce que la empírica probabilidad empírica de éxito en una serie de ensayos Bernoulli convergerá a la probabilidad teórica. Para una variable aleatoria Bernoulli, el valor valor esperado es la probabilidad teórica de éxito, y la media de n variables de este tipo (suponiendo que sean independientes e idénticamente distribuidas (i.i.d.)) es precisamente la frecuencia relativa.
Esto ya parece erróneo al afirmar que de un teorema matemático se puede seguir cualquier cosa sobre la probabilidad empírica (la página en la que la define como la frecuencia relativa en el experimento real), pero hay muchas afirmaciones más sutiles que técnicamente también parecen erróneas a partir de las consideraciones anteriores:
El LLN es importante porque "garantiza" resultados estables a largo plazo para las medias de los eventos aleatorios.
Obsérvese que el artículo de Wikipedia sobre la LLN afirma que se trata del teorema matemático, no de la observación empírica, que históricamente también se ha llamado a veces la LLN. Me parece que el LLN no hace nada para "garantizar resultados estables a largo plazo", ya que, como se ha dicho anteriormente, esos resultados estables a largo plazo tienen que suponerse en primer lugar para que los términos que aparecen en la derivación tengan el significado intuitivo que normalmente les atribuimos, por no mencionar que hay que hacer algo para interpretarlos. $P()$ en primer lugar. Otro ejemplo de Wikipedia:
Según la ley de los grandes números, si se lanza un gran número de dados de seis caras, es probable que la media de sus valores (a veces llamada media muestral) se acerque a 3,5, y que la precisión aumente a medida que se lanzan más dados.
¿Se deduce esto realmente del teorema matemático? En mi opinión, la interpretación del teorema que se utiliza aquí, se basa en suponiendo que este hecho. Hay un ejemplo particularmente vívido en el "Tratado de la probabilidad" de Keynes de lo que ocurre cuando se sigue la WLLN con incluso una ligera desviación de este supuesto inicial de que las p son las frecuencias relativas en el límite de un número infinito de ensayos:
El siguiente ejemplo de Czuber será suficiente para ilustrarlo. El argumento de Czuber es el siguiente siguiente: En el período 1866-1877 se registraron en Austria
m = 4.311.076 nacimientos masculinos
n = 4.052.193 nacimientos de mujeres
s = 8,363,269
para el período siguiente, 1877-1899, sólo se nos da
m' = 6.533.961 nacimientos masculinos;
¿qué conclusión podemos sacar en cuanto al número n de nacimientos de mujeres? En podemos concluir, según Czuber, que el valor más probable
n' = nm'/m = 6.141.587
y que existe una probabilidad P = .9999779 de que n se encuentre entre los límites 6.118.361 y 6.164.813. Parece que se opone al sentido común al sentido común que, con semejante evidencia, podamos, con certeza práctica certeza P = .9999779 = 1 1/45250 para estimar el número de mujeres de nacimientos femeninos dentro de unos límites tan estrechos. Y vemos que las condiciones establecidas establecidas en el § 11 han sido flagrantemente ignoradas. El número de casos, sobre a los que debe extenderse la predicción basada en el Teorema de Bernoulli excede el número de casos en los que se ha basado la probabilidad a priori. probabilidad a priori. Se puede añadir que para el periodo 1877-1894, el valor real de n se encuentra entre los límites estimados, pero que para el período 1895-1905, se encuentra fuera de los límites a los que la mismo método había atribuido una certeza práctica.
¿Me equivoco en mi razonamiento anterior, o todos esos son realmente errores de la Wikipedia? He visto afirmaciones similares por todas partes en los libros de texto, y sinceramente me pregunto qué me estoy perdiendo.
0 votos
Esta es una versión mucho más concreta de la pregunta que hice antes math.stackexchange.com/questions/775788/ y que pediría a los queridos moderadores que borrasen, ya que era demasiado vago para ser útil. Por favor, disculpen que vuelva a publicar algo parcialmente, espero que entiendan que hacer un razonamiento complicado no siempre es fácil ni rápido. No volveré a publicar nada similar.
1 votos
La ley de los grandes números es una pista falsa, creo: estás atascado en la idea de expresar cantidades "físicas" (como el resultado de un experimento de medición de frecuencia) como variables aleatorias.
1 votos
Se puede expresar un experimento de medición de frecuencias como X-dash, tal y como se ha definido anteriormente, independientemente de lo que sea P(), pero en el momento en que se toman las expectativas y se multiplican las P() de valores particulares de la variable aleatoria por los valores reales, se termina con una afirmación sobre lo que intuitivamente pensamos que es el valor medio de las repeticiones del experimento, sólo que con suposiciones adicionales sobre las P() que no están en los axiomas de Kolmogorov. En efecto, ahí es donde radica mi desacuerdo con la Wikipedia y su interpretación de la LLN, pero usted parece afirmar que simplemente estoy malinterpretando algo aquí, ¿verdad?
0 votos
Mejor trabajar el ejemplo lo que es realmente la varianza.
0 votos
@Willemien No estoy seguro de lo que quieres decir.
0 votos
Estudiando un poco más tu pregunta, tu fórmula de la varianza parece errónea, ¿de dónde has sacado esta fórmula? Lo mismo ocurre con la desigualdad de Chebyshev. la fórmula correcta es $P(|\overline{X}-\mu| \ge k\sigma ) \le \frac{1}{k^2}$ Eso es todo por ahora estaba pensando que tal vez su pregunta es mejor en las estadísticas SE stats.stackexchange.com
0 votos
También la gran razón por la que surgieron los axiomas de Kolmogrov, y una de las razones por las que la probabilidad fue inicialmente difícil de estudiar y hubo tanto desacuerdo, fue porque no hay una definición formal o un modo de pensamiento de lo que determina una probabilidad. El punto de vista bayesiano es que es subjetivo, el frecuentista es que es una frecuencia relativa. Pero, independientemente del lado que se tome, los axiomas están concebidos para que sean atributos generales que deben ser verdaderos para cualquier medida de probabilidad (observe que en ningún lugar de la teoría se dice cómo determinar $P()$ .
0 votos
Definición de $P()$ se determina qué modo de pensamiento sigues, así que si eres un frecuentista $P()$ sería una función que toma elementos del espacio muestral y devuelve su frecuencia relativa (es decir, la probabilidad a los ojos de un frecuentista)