No sé si esto puede considerarse un comentario o una respuesta. Estoy poniendo aquí porque se siente como una respuesta.
En la validación cruzada k-fold, los datos se dividen en k grupos. Si está cubriendo incluso lo "básico", entonces está seleccionando de forma aleatoria y uniforme miembros para cada uno de los k grupos.
Cuando hablo de datos, pienso en cada fila como una muestra, y en cada columna como una dimensión. Estoy acostumbrado a utilizar diversos métodos para determinar la importancia de las variables y de las columnas.
¿Y si, como ejercicio de reflexión, te apartas del azar uniforme del "libro de texto" y determinas qué filas son importantes? Quizá informen a una sola variable a la vez, pero quizá informen a más. ¿Hay filas menos importantes que otras? Quizá muchos de los puntos sean informativos, quizá pocos.
Conociendo la importancia de la variable, tal vez podría agruparlas por importancia. Tal vez podrías hacer una única papelera con las muestras más importantes. Esto podría definir el tamaño de su "k". De este modo, estaría determinando el cubo k "más informativo" y comparándolo con otros, y con el cubo menos informativo.
Esto podría darle una idea de la variación máxima de los parámetros de su modelo. Es sólo una forma.
Una segunda forma de dividir las k-ésimas cubetas es por la magnitud y la dirección de la influencia. De este modo, puede colocar las muestras que influyen en un parámetro o parámetros en una dirección en un cubo y colocar las muestras que influyen en el mismo parámetro o parámetros en la dirección opuesta en un cubo diferente.
La variación de los parámetros de esta forma podría dar un barrido más amplio a las variables, basado no en la densidad de la información, sino en la raza de la información.
Mucha suerte.