La ramificación binaria es sólo una simplificación para que sea más fácil de explicar sin matemáticas. La matemática real es muy simple, y puede manejar probabilidades desiguales.
En el nivel más simple, una ramificación se produce cuando se puede escribir la función de onda como una suma $$|\psi \rangle = |\psi_1 \rangle + |\psi_2 \rangle$$ donde $|\psi_1 \rangle$ y $|\psi_2 \rangle$ son ortogonales y descoherentes, es decir, que no existe ningún proceso físico razonable que pueda hacer que vuelvan a solaparse. En este caso describimos coloquialmente los dos términos como "mundos" o "ramas", y la probabilidad de estar en cada uno es la norma $\langle \psi_i | \psi_i \rangle$ que puede ser un número arbitrario entre cero y uno. La misma lógica se aplica a las bifurcaciones en más de dos "mundos" a la vez, y a las bifurcaciones repetidas: simplemente se obtiene una suma de muchos términos, y la probabilidad de cada uno es su norma.
Después de algunos comentarios, tengo la sensación de que realmente quieres una discusión sobre de dónde "viene" la probabilidad en la interpretación de los muchos mundos. De nuevo, esto es algo muy subjetivo y discutible, pero mi opinión favorita es la "incertidumbre auto-localizada".
Supongamos que alguien te secuestra, te venda los ojos y te lleva a algún lugar de Uzbekistán. Cuando recuperas el sentido, ¿estás más cerca de Samarcanda que de Tashkent? No lo sabes con seguridad, así que sólo puedes responder en términos de probabilidades. Se trata de una incertidumbre auto-localizadora: ciertamente estás en un lugar definido, y no es que haya muchas copias de ti corriendo por ahí, pero hay probabilidades de todos modos. Puedes usar una variedad de información para ayudarte. Por ejemplo, si se pondera por superficie, aproximadamente el 85% del país está más cerca de Samarcanda. (Pero esto no significa que haya $85$ copias de ti cerca de Samarkanda y $15$ copias de ustedes cerca de Tashkent). Pero si se pondera por la población, es sustancialmente mayor la población que está más cerca de Tashkent, porque es la capital. Por supuesto, qué ponderación es la correcta depende de cómo los secuestradores hayan configurado las cosas.
Ahora, supongamos que después de medir el espín de una partícula mediante un dispositivo, el estado es $$|\psi \rangle = \sqrt{0.85} |\text{spin up measured} \rangle + \sqrt{0.15} |\text{spin down measured} \rangle.$$ Estás viviendo en una y sólo una rama de la función de onda, pero hasta usted mira lo que lee el aparato, no se sabe cuál. Como mucho, puedes asignar probabilidades. La hipótesis central de muchos mundos es que la elección correcta de la probabilidad (es decir, la que corresponde a lo que realmente se observa, cuando se promedia sobre muchas mediciones) es tomar el coeficiente de cada rama y tomar su norma al cuadrado, es decir, asignar un 85% de probabilidades de observar el giro hacia arriba.
Si se pregunta de dónde viene esta suposición, es una pregunta perfectamente legítima. Sin embargo, la cuestión es que no hay ningún principio que diga que las probabilidades tienen que ser iguales en todas las ramas. Es como decir que todos los días deben tener un 50% de probabilidades de llover porque puede llover o no.