La sección clave del artículo de Wikipedia dice
La llamada recursiva de cálculo de la mediana no supera el peor caso comportamiento lineal porque la lista de medianas es el 20% del tamaño de la lista, mientras que la otra llamada recursiva recurre como máximo al 70% de la lista, lo que hace que el tiempo de ejecución $$T(n) \leq T(n/5) + T(7 \cdot n/10) + O(n).$$
El O( $n$ ) es para el trabajo de partición (visitamos cada elemento a número constante de veces, para formarlos en $n/5$ grupos y tomar cada mediana en O( $1$ ) tiempo). A partir de esto, se puede demostrar que $$T(n) \leq c \cdot n \cdot (1 + (9/10) + (9/10)^2 + \cdots) \in O(n).$$
utilizando el hecho de que como máximo el 70% de la lista está a un lado de la mediana de las medianas con grupos de cinco.
Si en lugar de eso tuvieras grupos de tres, la primera desigualdad sería $$T(n) \leq T(n/3) + T(2 \cdot n/3) + O(n)$$ por lo que no se obtendría una serie convergente en la segunda desigualdad.
No hay ninguna razón para no utilizar algo mayor que cinco; por ejemplo, con siete la primera desigualdad sería $$T(n) \leq T(n/7) + T(5 \cdot n/7) + O(n)$$ que también funciona, pero cinco es el número impar más pequeño (útil para las medianas) que funciona.