En general, agregar más y más características (incluso si no es necesariamente útil para hacer predicciones) mejoraría la precisión del modelo entrenado. Cuando el número de características sea igual o mayor que el número de muestras utilizadas para el entrenamiento, entonces (no sorprendentemente) se observaría una alta precisión cercana al 100% en el conjunto de entrenamiento (incluso bajo validación cruzada). Esto es simplemente debido al sobreajuste.
Esto se puede ilustrar usando un ejemplo sencillo:
Si tienes dos puntos de datos, puedes ajustar fácilmente una línea que pase por ambos. En este ejemplo, las características serían la pendiente e intercepción de la línea. [número de puntos de datos = número de características = 2]
Por otro lado, si hubiera tres o más puntos no colineales, tendrías que ajustar una regresión por mínimos cuadrados. Como resultado, el modelo lineal tendría una precisión menor al 100%.
Volviendo al ejemplo de scikit-learn en tu consulta:
El conjunto de datos de dígitos tiene 200 muestras con 64 características. Además, se introducen 200 características generadas aleatoriamente para que el conjunto de datos esté en la maldición de la dimensionalidad (es decir, número de características > número de muestras). Por lo tanto, naturalmente se observaría una mayor precisión para el caso del 100 percentil. Recuerda, esta mayor precisión está en detrimento de la generalización.
Si quisieras averiguar qué fracción de las 264 características totales es significativa para la predicción, tendrías que reservar una fracción del conjunto de datos puramente para pruebas (incluso en modo de validación cruzada).