12 votos

¿Permiten los axiomas de Kolmogorov hablar de frecuencias de aparición en algún sentido significativo?

Con frecuencia se afirma (en los libros de texto, en Wikipedia) que la "Ley de los grandes números" en la teoría matemática de la probabilidad es una afirmación sobre las frecuencias relativas de ocurrencia de un evento en un número finito de ensayos o que "relaciona el concepto axiomático de probabilidad con el concepto estadístico de frecuencia". ¿No se trata de un error metodológico de atribuir una interpretación a un término matemático, quizás apoyándose demasiado en el lenguaje colorido, que no se desprende en absoluto de cómo se define matemáticamente este término? Recordemos la derivación típica de la WLLN:

Dejemos que $X_1, X_2, ..., X_n$ sea una secuencia de n variables aleatorias independientes e idénticamente distribuidas con la misma media finita $\mu$ y con varianza $\sigma^2$ y dejar:

$\overline{X}=\tfrac1n(X_1+\cdots+X_n)$

Lo tenemos:

$E[\overline{X}] = \frac{E[X_1+...+X_n]}{n} = \frac{E[X_1]+...+E[X_n]}{n} = \frac{n\mu}{n} = \mu$ $Var[\overline{X}] = \frac{Var[X_1+...+X_n]}{n^2} = \frac{Var[X_1]+...+Var[X_n]}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}$

Y de la desigualdad de Chebyshev:

$P(|\overline{X}-\mu|>\epsilon) \le \frac{\sigma^2}{n\epsilon^2}$

Y entonces se dice que X converge en probabilidad a $\mu$ .

Consideremos ahora cuál es el significado estricto de esta expresión en el marco axiomático en el que se deriva:

$P(|\overline{X}-\mu|>\epsilon) \le \frac{\sigma^2}{n\epsilon^2}$

$P()$ en todas las partes de la derivación, sólo se sabe que es un número que satisface los axiomas de Kolmogorov, por lo que es un número entre 0 y 1, y así sucesivamente, pero ninguno de los axiomas introduce ningún equivalente teórico de la noción intuitiva de frecuencia. Si se hacen suposiciones adicionales sobre $P()$ no se hacen, la frase obviamente no puede ser interpretada en absoluto, pero lo que también es importante el significado teórico $\mu$ no es necesariamente el valor medio en un número infinito de ensayos, $\overline{X}$ no es necesariamente el valor medio de n ensayos, y así sucesivamente. Consideremos un experimento en el que se lanza repetidamente una moneda justa: obviamente, nada en los axiomas de Kolmogorov obliga a utilizar 1/2 para la probabilidad de salir cara, se podría utilizar también $1/\sqrt{\pi}$ Sin embargo, la derivación sigue "funcionando", salvo que el significado de las distintas variables no coincide con sus interpretaciones intuitivas. El $P()$ podría seguir significando algo, podría ser una cuantificación de una creencia absurda mía, la derivación matemática sigue siendo verdadera a pesar de todo, en el sentido de que mientras el $P()'s$ satisfacen los axiomas, los teoremas sobre otros $P()'s$ y con los axiomas de Kolmogorov proporcionando sólo restricciones débiles y no una definición de $P()$ es básicamente una manipulación de símbolos.

Esta interpretación de la "frecuencia relativa" que se da con frecuencia parece basarse en una suposición adicional, y esta suposición parece ser una forma de la propia ley de los grandes números. Consideremos este fragmento de los Grundbegriffe de Kolmogorov sobre la aplicación de los resultados de la teoría de la probabilidad al mundo real:

Aplicamos la teoría de la probabilidad al mundo real del experimento de la siguiente manera:

...

4) Bajo ciertas condiciones, que no discutiremos aquí, podemos suponer que el evento A que puede o no ocurrir en las condiciones S, se le asigna un número real P(A) que tiene la siguiente características:

a) Se puede estar prácticamente seguro de que si el complejo de condiciones S se repite un gran número de veces, n, entonces si m es el número de ocurrencias del evento A, la relación m/n diferirá muy poco de P(A).

Lo que parece equivalente a introducir la ley débil de los grandes números en una forma particular, ligeramente diferente, como un axioma adicional.

Mientras tanto, muchas fuentes reputadas contienen afirmaciones que parecen completamente opuestas al razonamiento anterior, por ejemplo Wikipedia:

De la ley de los grandes números se deduce que la empírica probabilidad empírica de éxito en una serie de ensayos Bernoulli convergerá a la probabilidad teórica. Para una variable aleatoria Bernoulli, el valor valor esperado es la probabilidad teórica de éxito, y la media de n variables de este tipo (suponiendo que sean independientes e idénticamente distribuidas (i.i.d.)) es precisamente la frecuencia relativa.

Esto ya parece erróneo al afirmar que de un teorema matemático se puede seguir cualquier cosa sobre la probabilidad empírica (la página en la que la define como la frecuencia relativa en el experimento real), pero hay muchas afirmaciones más sutiles que técnicamente también parecen erróneas a partir de las consideraciones anteriores:

El LLN es importante porque "garantiza" resultados estables a largo plazo para las medias de los eventos aleatorios.

Obsérvese que el artículo de Wikipedia sobre la LLN afirma que se trata del teorema matemático, no de la observación empírica, que históricamente también se ha llamado a veces la LLN. Me parece que el LLN no hace nada para "garantizar resultados estables a largo plazo", ya que, como se ha dicho anteriormente, esos resultados estables a largo plazo tienen que suponerse en primer lugar para que los términos que aparecen en la derivación tengan el significado intuitivo que normalmente les atribuimos, por no mencionar que hay que hacer algo para interpretarlos. $P()$ en primer lugar. Otro ejemplo de Wikipedia:

Según la ley de los grandes números, si se lanza un gran número de dados de seis caras, es probable que la media de sus valores (a veces llamada media muestral) se acerque a 3,5, y que la precisión aumente a medida que se lanzan más dados.

¿Se deduce esto realmente del teorema matemático? En mi opinión, la interpretación del teorema que se utiliza aquí, se basa en suponiendo que este hecho. Hay un ejemplo particularmente vívido en el "Tratado de la probabilidad" de Keynes de lo que ocurre cuando se sigue la WLLN con incluso una ligera desviación de este supuesto inicial de que las p son las frecuencias relativas en el límite de un número infinito de ensayos:

El siguiente ejemplo de Czuber será suficiente para ilustrarlo. El argumento de Czuber es el siguiente siguiente: En el período 1866-1877 se registraron en Austria

m = 4.311.076 nacimientos masculinos

n = 4.052.193 nacimientos de mujeres

s = 8,363,269

para el período siguiente, 1877-1899, sólo se nos da

m' = 6.533.961 nacimientos masculinos;

¿qué conclusión podemos sacar en cuanto al número n de nacimientos de mujeres? En podemos concluir, según Czuber, que el valor más probable

n' = nm'/m = 6.141.587

y que existe una probabilidad P = .9999779 de que n se encuentre entre los límites 6.118.361 y 6.164.813. Parece que se opone al sentido común al sentido común que, con semejante evidencia, podamos, con certeza práctica certeza P = .9999779 = 1 1/45250 para estimar el número de mujeres de nacimientos femeninos dentro de unos límites tan estrechos. Y vemos que las condiciones establecidas establecidas en el § 11 han sido flagrantemente ignoradas. El número de casos, sobre a los que debe extenderse la predicción basada en el Teorema de Bernoulli excede el número de casos en los que se ha basado la probabilidad a priori. probabilidad a priori. Se puede añadir que para el periodo 1877-1894, el valor real de n se encuentra entre los límites estimados, pero que para el período 1895-1905, se encuentra fuera de los límites a los que la mismo método había atribuido una certeza práctica.

¿Me equivoco en mi razonamiento anterior, o todos esos son realmente errores de la Wikipedia? He visto afirmaciones similares por todas partes en los libros de texto, y sinceramente me pregunto qué me estoy perdiendo.

0 votos

Esta es una versión mucho más concreta de la pregunta que hice antes math.stackexchange.com/questions/775788/ y que pediría a los queridos moderadores que borrasen, ya que era demasiado vago para ser útil. Por favor, disculpen que vuelva a publicar algo parcialmente, espero que entiendan que hacer un razonamiento complicado no siempre es fácil ni rápido. No volveré a publicar nada similar.

1 votos

La ley de los grandes números es una pista falsa, creo: estás atascado en la idea de expresar cantidades "físicas" (como el resultado de un experimento de medición de frecuencia) como variables aleatorias.

1 votos

Se puede expresar un experimento de medición de frecuencias como X-dash, tal y como se ha definido anteriormente, independientemente de lo que sea P(), pero en el momento en que se toman las expectativas y se multiplican las P() de valores particulares de la variable aleatoria por los valores reales, se termina con una afirmación sobre lo que intuitivamente pensamos que es el valor medio de las repeticiones del experimento, sólo que con suposiciones adicionales sobre las P() que no están en los axiomas de Kolmogorov. En efecto, ahí es donde radica mi desacuerdo con la Wikipedia y su interpretación de la LLN, pero usted parece afirmar que simplemente estoy malinterpretando algo aquí, ¿verdad?

5voto

I. Estoy de acuerdo contigo en que ninguna versión de la Ley de los Grandes Números nos dice algo sobre las frecuencias de la vida real, ya por la razón de que ningún enunciado puramente matemático nos dice nada sobre la vida real en absoluto, sin dar antes a los objetos matemáticos que contiene una "interpretación de la vida real" (que nunca se puede enunciar, y menos aún "demostrar", dentro de las propias matemáticas).

Más bien, pienso en la LLN como algo que, dentro de cualquier modelo matemático útil de probabilidades y experimentos estadísticos , debe ¡es cierto! En el sentido de que: Si me muestras un nuevo conjunto de axiomas para la teoría de la probabilidad, que afirmas que tiene alguna utilidad como modelo para el lanzamiento de dados en la vida real, etc.; y esos axiomas no implican alguna versión de la Ley de los Grandes Números -- entonces yo descartaría tu sistema de axiomas, y creo que tú también deberías hacerlo.


II. La mayoría de la gente estaría de acuerdo en que existe un experimento de la vida real que podemos llamar "lanzar una moneda justa" (o "lanzar un dado justo", "hacer girar una ruleta justa"...), en el que tenemos un conjunto finito de resultados claramente definido, ninguno de los resultados es más probable que otro, podemos repetir el experimento tantas veces como queramos, y el resultado del siguiente experimento no tiene nada que ver con ninguno de los resultados que tenemos hasta ahora.

Y podríamos interesarnos por cuestiones como ¿Debo jugar a este juego en el que gano/pierdo esta cantidad de dinero en caso de que... ocurra? ¿Es más probable que después de cien tiradas, el número añadido en los dados esté entre 370 y 380, o entre 345 y 350? etc.

Para obtener una visión cuantitativa para responder a estas preguntas, necesitamos modelo el experimento de la vida real con una teoría matemática. Se puede debatir (pero, de nuevo, tal debate ocurre fuera de las matemáticas) lo que tal modelo podría decirnos, si podría decirnos algo con certeza, sea lo que sea que eso signifique; pero la mayoría de la gente estaría de acuerdo en que parece que podemos conseguir algunos la visión aquí haciendo algún tipo de matemáticas .

En efecto, buscamos dos cosas que sólo juntos tener alguna posibilidad de ser útil para la vida real: a saber, una teoría "puramente" matemática, junto con una interpretación de la vida real (como una tabla de traducción) de la misma que nos permite realizar la rutina que (deberíamos) hacer siempre:

Paso 1: Traducir nuestra pregunta de la vida real en una pregunta del modelo matemático.

Paso 2: Utilizar nuestras habilidades matemáticas para responder a la pregunta dentro del modelo.

Paso 3: Traduzca esa respuesta a la interpretación de la vida real.

Los axiomas de la probabilidad, como por ejemplo los de Kolmogorov, hacen eso: Nos proporcionan una modelo matemático que dará respuestas muy concretas. Como en todo modelo matemático, esas respuestas concretas digamos, $P(\bar X_{100} \in [3.45,3.5]) > P(\bar X_{100} \in [3.7,3.8])$ -- son absolutamente ciertas dentro de la teoría matemática (dejando de lado por ahora las cuestiones fundacionales a lo Gödel). También vienen con un interpretación estándar (o quizás, un conjunto de interpretaciones estándar, una para cada escuela filosófica). Ninguna de estas interpretaciones es justificable por las propias matemáticas; y lo que cualquier resultado de la teoría (como $P(\bar X_{100} \in [3.45,3.5]) > P(\bar X_{100} \in [3.7,3.8])$ ) nos dice sobre nuestro experimento de la vida real no es una cuestión matemática. Es una cuestión filosófica y muy discutible. Quizás un frecuentista diría, esto significa que si tiras 100 dados una y otra vez (es decir, realizando una especie de meta-experimento, donde cada experimento individual es ya 100 "experimentos atómicos" promediados), entonces la frecuencia relativa de ... es mayor que la frecuencia relativa de ... . Tal vez un bayesiano diría, bueno esto significa que si tienes algo de dinero de sobra, y alguien te da la alternativa de apostar por este o aquel resultado, deberías apostar por este, y no por aquel. etc.


III. Ahora considere la siguiente afirmación, que afirmo sería aceptada por casi todo el mundo:

( $\ast$ ) "Si se repite un experimento de la vida real del tipo anterior muchas veces, entonces las medias de las muestras deberían converger a (convertirse en una aproximación cada vez mejor) la media ideal".

Un frecuentista podría aceptar con sorna ( <span class="math-container">$\ast$</span> ), pero bromea con que es cierto por definición, porque podría afirmar que cualquier definición de dicha "media ideal" más allá de "a la que convergen las medias muestrales" carece de sentido. Un bayesiano podría explicar la "media ideal" como, bueno, ya sabes, la media -como si la pusieras en un histograma, ves, aquí está el centro de peso- el resultado por el que apostarías -¡ya sabes! Y ella podría estar contenta con eso. Y ella diría, sí, por supuesto que es <em>relacionado con </em>frecuencias relativas exactamente en el sentido de ( <span class="math-container">$\ast$</span> ).

Quiero que strees que ( $\ast$ ) es no es una afirmación matemática . Es una afirmación sobre experimentos de la vida real, que afirmamos que es verdadera, aunque no nos pongamos de acuerdo en por qué lo hacemos: dependiendo de tu formación filosófica, puedes verlo como una tautología o no, pero incluso si lo haces es no una tautología matemática (no es una afirmación matemática en absoluto), sino tal vez una filosófica.

Y ahora digamos que sí queremos una tabla de modelo más traducción para nuestros experimentos del apartado II. Dicho modelo debería contener un objeto que modele [es decir, cuya "traducción a la vida real" sea] un experimento "atómico": es decir, la variable aleatoria $X$ o, para ser precisos, una colección infinita de variables aleatorias i.i.d. $X_1, X_2, ...$ .

Contiene algo que modela "la media real de la muestra después de $100,1000, ..., n$ ensayos": es decir $\bar X_n := \frac{1}{n}\sum_1^n X_i$ .

Y contiene algo que modela "una media ideal": es decir $\mu=EX$ .

Así que con ese modelo más la traducción, ahora podemos formular, dentro de dicho modelo, un enunciado (o conjunto de enunciados relacionados) que, bajo la traducción estándar, parecen decir algo parecido a ( $\ast$ ).

Y eso es la (o son las diversas formas de la) Ley de los Grandes Números. Y son verdaderas dentro del modelo, y se pueden derivar de los axiomas de ese modelo.

Así que yo diría: El hecho de que se cumplan, por ejemplo, los axiomas de Kolmogorov, significa que estos axiomas pasan una de las pruebas más básicas que deberían pasar: Tenemos una declaración filosófica sobre el mundo real, ( $\ast$ ), que creemos que es verdadera, y de las diversas formas en que podemos traducirla en el modelo matemático, esas traducciones son verdaderas en el modelo. La LLN no es una afirmación sorprendente a nivel metamatemático por la siguiente razón: Cualquier tipo de modelo para la probabilidad que, cuando se utiliza como modelo para el experimento de la vida real anterior, no daría un resultado que es la analogía matemática de la afirmación ( $\ast$ ), debería ser expulsado.

En otras palabras: Por supuesto que los buenos axiomas de probabilidad dan la Ley de los Grandes Números. Están hechos para que los den. Si alguien propusiera un conjunto de axiomas matemáticos, y una guía de traducción a la vida real de los objetos que contiene, y cualquier versión interna del modelo ( $\ast$ ) sería errónea, entonces ese modelo debería considerarse inútil (tanto por los frecuentistas como por los bayesianos, sólo que por razones diferentes) para modelar los experimentos de la vida real mencionados.


IV. Quiero terminar señalando un caso en el que su argumento parece contradictorio, lo que, al exponerlo, podría hacer más plausible para usted lo que escribo arriba.

Permítame simplificar un argumento suyo así:

(A) Un enunciado matemático como el LLN en sí mismo nunca puede hacer ninguna afirmación sobre las frecuencias de la vida real.

(B) Muchas fuentes afirman que la LLN sí hace afirmaciones sobre las frecuencias de la vida real. Así que deben estar asumiendo implícitamente más.

(C) Como ejemplo, usted expone una cita de Kolmogorov sobre la aplicación de la teoría de la probabilidad al mundo real, y dice que "parece equivalente a introducir la ley débil de los grandes números en una forma particular, ligeramente diferente, como un axioma adicional".

Estoy de acuerdo con (A) y (B). Pero en (C) es donde quiero que te detengas a pensar: ¿No estábamos de acuerdo, cf. (A), en que ningún enunciado matemático puede decirnos algo sobre las frecuencias de la vida real? Entonces, ¿qué clase de "axioma adicional" diría eso? Sea lo que sea lo que suponen implícitamente las fuentes, por otra parte equivocadas, de (B), y de lo que habla el propio Kolmogorov en (C), no puede ser simplemente un "axioma adicional", al menos no uno matemático: Porque uno puede echar todos los axiomas matemáticos que quiera, pero nunca van a salvar la brecha fundamental de (A).

Afirmo que lo que todas las fuentes en (B) están asumiendo implícitamente, y de lo que Kolmogorov habla en (C), es no un axioma adicional dentro de la teoría matemática. Es la traducción/interpretación metamatemática de la que hablo arriba, que en sí misma no es matemática, y en particular no puede ser introducida como un axioma adicional dentro de la teoría .

Afirmo, en efecto, que la mayoría de las fuentes son muy descuidadas, en el sentido de que olvidan totalmente la parte de traducción/interpretación entre la vida real y el modelo matemático, es decir, el puente que necesitamos para cruzar la brecha en (A); es decir, los pasos 1 y 3 de la rutina explicada en el párrafo II. Por supuesto, en cualquier clase para principiantes se enseña que cualquier modelo en sí mismo (es decir, sin una traducción, sin los pasos 1 y 3) no sirve para nada, pero esto se olvida comúnmente ya en las ciencias no estadísticas, y más aún en la estadística, lo que lleva a todo tipo de confusiones. Dedicamos tanto tiempo y esfuerzo al paso 2 que a menudo olvidamos los pasos 1 y 3; además, el paso 2 puede enseñarse y aprenderse y ponerse en los exámenes, pero los pasos 1 y 3 no tanto: van más allá de las matemáticas, parecen encajar mejor en una clase de ciencias o de filosofía (aunque dudo que allí también reciban un tratamiento suficientemente bueno). Sin embargo, si nos olvidamos de ellos, nos quedamos con un montón de axiomas que enlazan símbolos casi sin sentido; y los restos de significado que nosotros, como humanos, no podemos evitar aplicar a estos símbolos, rápidamente parecen no ser más que argumentos circulares.

1voto

jsk Puntos 493

Según los axiomas de Kolmogorov, si se hace una suposición sobre la distribución de la variable aleatoria $X_i$ se podría utilizar para derivar la distribución de la variable aleatoria $\bar{X}$ . Obsérvese en la última afirmación que como $X_i$ es una variable aleatoria, $\bar{X}$ es también una variable aleatoria. El hecho de que $\bar{X}$ es una variable aleatoria significa que existe una medida de probabilidad para la variable aleatoria $\bar{X}$ . Lo bueno de la WLLN es que mientras ambos $\mu$ y $\sigma^2$ son finitos, no hay suposiciones sobre la medida $P()$ debe hacerse para derivar que $\bar{X_n}$ converge en probabilidad a $\mu$ . Estoy de acuerdo con Hurkyl. Quizás este post ayude con el concepto de variable aleatoria https://stats.stackexchange.com/questions/50/what-is-meant-by-a-random-variable

Sin embargo, usted hace una buena observación sobre si los supuestos que la $X$ son variables aleatorias independientes e idénticamente distribuidas puede no ser cierto en la práctica, que es el problema al que alude el ejemplo de Keynes.

El ejemplo relativo a los dados parece basarse en la suposición de que el dado es justo, lo que puede ser razonable o no dependiendo de cómo se construya y lance el dado. Sin embargo, parece razonable suponer que existen configuraciones adecuadas de un experimento de lanzamiento de dados para el que las tiradas son $i.i.d$ variables aleatorias con una medida de probabilidad $P$ . En tal caso, se deduce de la WLLN que $\bar{X}$ convergería efectivamente a $\mu$ .

1 votos

No tengo dudas de que X-da converge a mu en el marco de los axiomas de Kolmogorov, pero la cuestión es si esto permite sacar alguna conclusión interpretable. Basándose sólo en los axiomas, mu y X-dash no son interpretables como el valor medio de un gran resultado de ensayos, son simplemente medias ponderadas de algún conjunto de valores utilizando la, hasta cierto punto arbitraria, medida P(). Del mismo modo, cuando se menciona la "frecuencia relativa" en el contexto de la teoría, creo que no se traduce realmente en la frecuencia relativa del mundo real, a menos que la WLLN se asuma como verdadera a priori.

0 votos

En otras palabras, me parece que la gente no se da cuenta de que cuando se habla de "frecuencia relativa" en el contexto de la teoría de la probabilidad, sólo corresponde a nuestra noción intuitiva de "frecuencia relativa", si se hacen suposiciones adicionales a los axiomas de Kolmogorov, y la suposición necesaria es la propia WLLN. Por lo tanto, no hay conclusiones sobre situaciones del mundo real que se desprendan exclusivamente de la WLLN tal como se deriva de los axiomas.

0 votos

Por cierto, los juicios en los ejemplos de Keynes son independientes e idénticamente distribuidos, el problema es que las probabilidades están ligeramente alejadas de la frecuencia relativa teórica ideal en un límite infinito de ensayos. Aunque tales P() satisfacen los axiomas, y la matemática formal sigue siendo "verdadera", se ve que el resultado ya no parece ser verdadero, y eso es porque la interpretación intuitiva de los diversos términos de la derivación ya no se sostiene. Este ejemplo muestra que la WLLN tiene que ser asumida a priori para que la interpretación habitual del mundo real se mantenga.

1voto

biased_estimator Puntos 126

Tienes razón. La Ley de los Grandes Números no dice en realidad tanto como nos gustaría creer. La confusión surge porque intentamos atribuirle demasiada importancia filosófica. Hay una razón por la que el artículo de la Wikipedia pone comillas entre "garantías" porque nadie cree realmente que una teoría formal (por sí sola) garantice nada sobre el mundo real. Todo lo que dice LLN es que alguna noción de probabilidad, sin interpretación, se aproxima a 1 -- nada más, nada menos. Ciertamente no demuestra que la frecuencia relativa se acerque a alguna probabilidad ( qué probabilidad?). La clave para entender esto es observar que la LLN, como has señalado, utiliza realmente el término P() en su propio enunciado. Utilizaré esta versión de la LLN:

"La probabilidad de que la distribución de frecuencias de un determinado muestreo se parezca a la distribución de probabilidad real (en cierto grado) a medida que se hace grande se acerca a 1".

Interpretando la "probabilidad" en el sentido frecuentista, se convierte en esto:

Interpretar la "distribución de probabilidad real" : "Supongamos que a medida que tomamos muestras más grandes, éstas convergen a una determinada distribución de frecuencias relativas..."

Interpretar la declaración : "... Ahora bien, si fuéramos dado un número suficiente de muestreos de n números la proporción de los que se parecen mucho (dentro de $\epsilon$ ) la distribución de frecuencias original frente a las que no lo son se aproxima de 1 a 0. Es decir, la frecuencia relativa de las instancias "correctas" converge a 1 a medida que se aumenta tanto n como el número de instancias".

Puedes imaginarlo como una mesa. Supongamos, por ejemplo, que nuestra moneda tiene T-H con una frecuencia relativa de 50-50. Cada fila es una secuencia de lanzamientos de la moneda (un muestreo), y hay varias filas -- estás como haciendo varias muestras en paralelo . Ahora añada más columnas, es decir, añada más lanzamientos a cada secuencia, y añada más filas, aumentando la cantidad de secuencias propias. Al hacerlo, cuente el número de filas que tienen una distribución de frecuencias cercana al 50-50 (dentro de unos $\epsilon$ ) , y dividir por el número total de filas. Este número debería acercarse al 1 según el teorema.

Ahora bien, algunos pueden encontrar este hecho muy sorprendente o perspicaz, y eso es más o menos lo que está causando toda la confusión en primer lugar. No debería ser sorprendente, porque si nos fijamos bien en nuestro ejemplo de interpretación frecuentista, hemos asumido "Supongamos por ahora que nuestra moneda tiene T-H con una frecuencia relativa del 50-50". En otras palabras, ya hemos asumido que cualquier secuencia particular de lanzamientos lo hará, con una certeza lógica se acercan a un reparto de frecuencias de 50-50. Así que no debe sorprender que digamos que con una certeza lógica ¿que una proporción progresivamente mayor de estas secuencias de lanzamiento se asemejará a los repartos 50-50 si lanzamos más en cada una, y reclutamos más lanzadores? Es casi una reformulación de la hipótesis original, pero a un metanivel (estamos hablando de muestras de muestras).

Así que esta certeza sobre el mundo real (LLN interpretada) sólo proviene de otra certeza supuesta sobre el mundo real (interpretación de la probabilidad).

En primer lugar, con una interpretación frecuentista, es no la LLN que establece que una muestra se aproximará a la distribución de frecuencias relativas -- es la interpretación/definición frecuentista de $P()$ que dice esto. Sin embargo, es fácil pensar eso si interpretamos todo el asunto de forma inconsistente, es decir, si interpretamos perezosamente que "la probabilidad de que... se acerque a 1" significa "... se acerque a la certeza" en LLN, pero dejamos la afirmación interna "la dist. de frecuencias relativas se asemeja a la dist. de probabilidades" a la interpretación (diferente). Entonces, por supuesto, se obtiene "la dist. de frecuencia relativa se asemeja a la dist. de probabilidad en el límite". Es algo así como si tienes un límite de una integral de una integral, pero eliminas la integral exterior y aplicas el límite a la integral interior.

Curiosamente, si se interpreta la probabilidad como una medida de la creencia, se puede obtener algo que suena menos trivial que la versión frecuentista: "El grado de creencia en 'cualquier muestra refleja las medidas de creencia reales en sus frecuencias relativas dentro de $\epsilon$ error' se acerca a la certeza a medida que elegimos muestras más grandes". Sin embargo, esto sigue siendo diferente de "Las muestras, a medida que se hacen más grandes, se acercan a las medidas de creencia reales en sus frecuencias relativas." Como ilustración, imagine que tiene dos secuencias $f_n$ y $p_n$ . Estoy seguro de que puede apreciar la diferencia entre $lim_{n \to \infty} P(|f_n - p_n| < \epsilon) = 1$ y $lim_{n \to \infty} |f_n - p_n| = 0$ . Esto último implica $lim_{n \to \infty} f_n$ = $lim_{n \to \infty} p_n$ (o $=p$ tomando $p_n$ sea una constante para simplificar), mientras que esto no es cierto para el primero. Esta última es una afirmación muy potente, y la teoría de la probabilidad no puede demostrarla, como usted sospechaba.

De hecho, estabas en el camino correcto con el argumento de la "creencia absurda". Supongamos que la teoría de la probabilidad fuera capaz de demostrar este asombroso teorema, que "la frecuencia relativa de una muestra se aproxima a la distribución de la probabilidad". Sin embargo, como has comprobado, hay varias interpretaciones de la probabilidad que entran en conflicto entre sí. Tomando prestada la terminología de la lógica matemática: esencialmente has encontrado dos modelos de la teoría de la probabilidad; se satisface la afirmación "la distribución de frecuencia relativa se aproxima $1/2 : 1/2$ ", y otro satisface la afirmación "la distribución de frecuencia relativa se aproxima $1/\pi : (1-1/\pi)$ ". Así que la afirmación "la frecuencia se acerca a la probabilidad" no es ni verdadera ni falsa: es independiente ya que cualquiera de ellas es coherente con la teoría. Por lo tanto, la teoría de la probabilidad de Kolmogorov no es lo suficientemente potente como para demostrar una afirmación de la forma "la frecuencia se aproxima a la probabilidad". (Ahora bien, si forzáramos la cuestión diciendo que "la probabilidad debe ser igual a la frecuencia relativa", habríamos trivializado la cuestión al introducir el frecuentismo en la teoría. El único modelo posible para esta teoría de la probabilidad sería el frecuentismo o algo isomorfo a él, y la afirmación se vuelve obvia).

-1voto

user29318 Puntos 11

Lo que se te escapa es que la derivación de la WLLN puede utilizar, no sólo los axiomas de Kolmogorov, sino también la suposición establecida en el teorema: "El $X_1,X_2,\dots,X_n$ son una secuencia de $n$ variables aleatorias independientes e idénticamente distribuidas con la misma media finita , y con varianza $^2$ ". Así, por ejemplo, si lanzamos una moneda justa, sabemos que =1/2 (esto es lo que significa "moneda justa" en la teoría de la probabilidad), no $1/\sqrt\pi$ . Y del mismo modo, en un ensayo de Bernoulli, se nos da la media real a la que se supone que convergen las probabilidades observadas. Y el ejemplo de Keynes/Czuber no es una aplicación válida de la LLN porque no se nos da la media real ni la desviación estándar.

Así que las dos primeras afirmaciones del artículo de la Wikipedia son básicamente correctas (excepto que "convergerá a la probabilidad teórica" debería decir "convergerá en probabilidad a la probabilidad teórica"; la probabilidad de que los valores observados no converjan al valor teórico es 0; pero podría ocurrir de todos modos).

Sin embargo, la tercera afirmación, "Según la ley de los grandes números, si se lanza un gran número de dados de seis caras, es probable que la media de sus valores (a veces llamada media de la muestra) se acerque a 3,5, y que la precisión aumente a medida que se lanzan más dados", no se deduce, ya que no sabemos a priori que lanzar un dado de seis caras constituya un ensayo de Bernoulli. Mirando el contexto, parece que la equidad del dado se entiende como una suposición de ambiente, ya que una de las frases anteriores es "Por ejemplo, una sola tirada de un dado de seis caras produce uno de los números 1, 2, 3, 4, 5 o 6, cada uno con igual probabilidad."

-3voto

Nikos M. Puntos 1031

Como he dicho en otro pregunta La teoría (axiomática) de la probabilidad es un marco matemático que extrapola un modelo específico de procesos físicos.

Uno de nuestros profesores de teoría estocástica y probabilidad solía decir: " la (aplicación de la) teoría de la probabilidad sólo tiene sentido para los procesos/sistemas que presentan estabilidad estadística ".

Es como aplicar la teoría de grupos o la teoría de campos donde no corresponde (esto hace que la confusión entre la formulación de la teoría de la probabilidad y su aplicación e interpretación sea al punto).

Esto responde tanto a la pregunta como a los contraejemplos específicos y, en cierto modo, unifica los puntos de vista frecuentista y bayesiano.

(por cierto la exposición de Jaynes es una de mis favoritas pero estoy muy en desacuerdo con el punto de vista subjetivista que puedo debatir bastante bien, pero esto no es lo esencial aquí).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X