El rendimiento de un clasificador aleatorio depende de la fracción de veces que predice positivo, por ejemplo $P(\hat{y} = 1)$ . Un modelo aleatorio significa esencialmente un modelo cuyas predicciones $\hat{y}$ son independientes de la verdadera etiqueta $y$ lo que significa: $$ P(\hat{y} = 1\ |\ y = 1) = P(\hat{y} = 1), $$ y $$ P(y = 1\ |\ \hat{y} = 1) = P(y = 1). $$ La probabilidad de acertar, es decir, la precisión esperada es entonces: $$ P(\hat{y} = y) = P(\hat{y} = 1) P(y = 1) + P(\hat{y} = 0) P(y = 0). $$ Si el conjunto de datos está desequilibrado, el modelo "aleatorio" con la mejor precisión esperada es el que siempre predice la clase mayoritaria, con una precisión esperada igual a la fracción de datos de la clase mayoritaria.
El principal problema con los conjuntos de datos muy desequilibrados (digamos un 99% de negativos) es que es probable que acabe con modelos triviales como los descritos anteriormente, es decir, un modelo que siempre predice la clase mayoritaria (negativa) y consigue una alta precisión (99%), por lo que este modelo inútil parece realmente bueno. Si utiliza una función de puntuación pobre (como la precisión) al optimizar los hiperparámetros, es muy probable que obtenga un modelo muy malo en entornos desequilibrados.
Esta es una de las muchas razones por las que deben evitarse las medidas discretas como la precisión. No tendrás esos problemas con medidas como el área bajo la curva ROC o PR.