Conseguí una copia de una edición antigua de Ross's Primer curso de probabilidad . Por axiomas de la probabilidad entiende lo siguiente:
Sea $S$ sea un conjunto. Entonces un subconjunto $E \subset S$ se denomina suceso, y los axiomas son axiomas para una función $P$ que asigna a cada acontecimiento $E \subset S$ un número real $P(E)$ . Lo son:
(1) Para todos $E$ en $S$ , $0 \leq P(E)\leq 1$ . (Así, la probabilidad de un suceso se sitúa entre $0$ y $1$ .)
(2) $P(S) = 1$ .
(3) Para cualquier secuencia $\{E_n\}_{n=1}^{\infty}$ de sucesos que son disjuntos por pares -- para todo $i \neq j$ , $E_i \cap E_j = \varnothing$ tenemos
$P(\bigcup_{n=1}^{\infty} E_i) = \sum_{n=1}^{\infty} P(E_i)$ .
(Éste es el famoso axioma de la "aditividad contable").
Esto es literalmente lo que dice. Por supuesto, como varias personas aquí ya han señalado, esto es equivocado . Lo aborda en un párrafo al final de la sección:
"Observación técnica. Hemos supuesto que $P(E)$ se define para todos los eventos del espacio muestral. En realidad, cuando el espacio muestral es un conjunto incontablemente infinito $P(E)$ se define sólo para una clase de sucesos llamados medibles. Sin embargo, esta restricción no tiene por qué preocuparnos, ya que todos los sucesos de interés práctico son mensurables."
Bueno, como matemático puro esto es una especie de bofetada en la cara, pero no importa.
¿Quizás la confusión de la OP proviene de algo parecido a un "axioma"? Si estudias geometría en el instituto, parece que un axioma significa "algo que tendrás que asumir porque no podrás demostrarlo". Pero esto no es lo que significa el término en las matemáticas modernas. Un axioma es más bien propiedad que una estructura determinada puede o no satisfacer. A menudo queremos estudiar todas las estructuras que satisfacen alguna familia de axiomas -- por ejemplo, grupos, anillos, espacios topológicos -- y el mérito de los axiomas es que uno puede demostrar resultados que se mantienen para cualquier estructura que satisface los axiomas. Y, de hecho, en la siguiente sección el autor demuestra algunas propiedades sencillas que deben cumplirse en cualquier espacio de probabilidad, es decir, para cualquier conjunto $S$ y función $P$ a partir de subconjuntos de $S$ a $\mathbb{R}$ por ejemplo, que si $E_1 \subset E_2$ entonces $P(E_1)\leq P(E_2)$ .
Por último, si se me permite: No creo que ningún estudiante de probabilidad tenga que tomarse muy en serio esto del "frecuentismo". En mi opinión, suena a matemáticas aplicadas, pero en realidad es filosofía: es decir, es mucho más difícil desarrollar una teoría coherente y satisfactoria de la probabilidad. $P(E)$ como un cierto límite definido a través de una relación y la experimentación repetida de lo que es o bien desarrollar la teoría de la probabilidad como rama de las matemáticas puras o aplicarlo para resolver problemas reales. Por ejemplo, muchos jugadores profesionales de póquer y bridge pueden resolver, y de hecho resuelven, ciertos problemas de probabilidad no del todo triviales en tiempo real, y no lo hacen filosofando sobre la naturaleza de la frecuencia...