Estoy seguro de que estoy olvidando algo básico, pero aquí va. Los dados explosivos son una regla (casera) para algunos juegos que dice que cuando sacas el resultado máximo en un dado dado (por ejemplo, 6 en un dado de seis caras) vuelves a tirar ese dado y sumas el resultado. Si vuelves a sacar el valor máximo, vuelves a tirar y sumas eso. Esto continuará hasta que dejes de sacar el valor máximo.
A partir de aquí, surge una pregunta natural: "¿cuál es el promedio de un dado explosivo?". Con el ejemplo de un dado de seis caras, la siguiente respuesta surge naturalmente:
$3.5*+3.5*\frac{1}{6}+3.5*\frac{1}{6^2}\dots=4.2$
Esto parece ser correcto, y se mantiene a cualquier prueba empírica que se me ocurra, pero ¿por qué funciona? Quiero utilizar alguna excusa del tipo "el valor esperado es lineal y tenemos distribuciones idénticas", pero encuentro eso insatisfactorio. En particular, no entiendo por qué podemos usar los valores promedio de 3.5 cuando cada término a la derecha de ese 3.5 asume que hemos superado el promedio. No tengo dudas de que esta es la razón por la que necesitamos los términos $6^{-n}$, pero mi intuición insiste en que esto es insuficiente.
Nota: Lo que realmente quiero aquí es ver el rigor. Una respuesta ideal atacará esto desde cero, posiblemente incluso axiomáticamente. Espero que no tengamos que profundizar tanto como para usar medidas de probabilidad en conjuntos, pero al menos quiero alguna respuesta que se enfoque en qué propiedad de los promedios nos permite factorizar los dados de esta manera.