Voy a dar una respuesta diferente, ya que es demasiado para un comentario y se trata de un enfoque más general.
Así, en la ESL, que describen, de hecho, el tiempo de cálculo para un branch-and-bound (más precisamente, se ve como un "divide y vencerás" para mí).
Se denota con a $N$ el número de observaciones y con $K$ el número de nodos hijos, cuando sembramos un árbol. Asumo que no nos suelta en la generalidad si tenemos en cuenta $K$ a ser fijo. También, podemos denotar con $f(N)$ el tiempo de procesamiento para el cómputo de los puntos de división en un nodo dado.
Por lo tanto, podemos escribir de forma recursiva la fórmula para el tiempo de ejecución como:
$$T(N) = f(N) + K * T(N/K) $$
consideramos aquí que el niño nodos de dividir el conjunto de datos de entrada de tamaño $N$ $K$ subconjuntos de igual tamaño $N/K$. Sabemos que el tis es el mejor de los casos.
Sin embargo, podemos ver que este es un conocido de la aplicación de Maestro Teorema. Esto está bien documentado en la CLRS libro. Tengo la 3ª edición y los detalles están en la sección 4.5 y la prueba está en la siguiente sección. No recuerdo bien los detalles, pero recuerdo que no es demasiado complicado si uno amplía la recursividad y el grupo de algunos de los términos juntos.
Sin embargo, lo importante de este caso es que cuando $f(N)=O(N)$ - tiempo lineal, el tiempo resultante del algoritmo es $T(N) = O(N logN)$. Este tiempo se calcula para una sola variable de entrada, por lo tanto, nuestro tiempo total de $P$ variables serían $O(P N logN)$
Este tiempo es alcanzable para la siembra de árboles, si todas las entradas son clasificadas inicialmente en $O(P N logN)$, y la búsqueda de la división de valor toma el tiempo lineal en esta entradas ordenadas. Aquí podemos aplicar la línea de la varianza algoritmo, como ya he mencionado en mi respuesta anterior para $L_2 = \frac{1}{N}(y-\hat{y})^2$ . Para $L_1 = \frac{1}{N}|y-\hat{y}|$ es incluso más fácil encontrar la mediana. Confieso que nunca he probado alguna otra función de pérdida para los árboles.
Tenga en cuenta sin embargo que el Maestro Teorema se aplica para el mejor de los casos si las divisiones son iguales en tamaño. El peor caso es cuando la ruptura es muy desequilibrado. De ahí, se puede aplicar un caso diferente es el de Maestro Teorema y el tiempo se convertirá en $O(P N^2)$.
Como conclusión supongo que ESL autores utilizan el término por lo general en una forma que se utiliza para describir el rápido algoritmo de ordenación. Normalmente ordenación rápida da $O(N logN)$ tiempo de funcionamiento, teniendo peor de los casos $O(N^2)$, para algunos datos específicos de las configuraciones.
Espero te sirva de ayuda.