La que comúnmente se utiliza el algoritmo de muestreo de categórico de distribución es
- ordenar el vector de probabilidades acumuladas $\boldsymbol{p} = (p_1,p_2,\dots,p_n)$ en orden decreciente a partir de las categorías que aparecen con mayor, a la que aparecen con menores probabilidades de obtener el permutada vector de $\boldsymbol{p}_{\pi}$,
- ejemplo de $u$ a partir de una distribución uniforme en $(0,1)$,
- aceptar el menor $k$ tal que $p_{\pi(k)} \ge u$ $X$ (donde $\pi(k)$ es la posición de $k$ en permutada vector $\boldsymbol{p}_{\pi}$).
Lo de la clasificación (es decir, que comienza en el modo) no hace que el número de comparaciones a realizar antes de detenerse menor, por lo que debe ser más eficiente* a continuación, el "ingenuo" algoritmo usando sin clasificar probabilidades (ordinario inversa de la transformación).
Sin embargo, mi pregunta es: ¿ignorando la clasificación de paso tiene ningún otro efecto en el algoritmo además de reducir el rendimiento del algoritmo (supongo que no, pero estoy buscando la justificación)? Por otra parte, ¿cuánto (cuando) no es en realidad el cambio en términos de rendimiento?
* - He hecho algunas pruebas de referencia sobre esto, pero lo hicieron no se dan ninguna de resultados concluyentes.