Esto es más una pregunta general y no ml-algoritmo específico, ¿existen algoritmos / herramientas / documentos sobre el tema de la "selección" de datos de entrenamiento-entradas?
A menudo le faltarán datos de entrenamiento, por lo que es aconsejable utilizarlos todos o incluso intentar encontrar más datos.
Parece que muchas personas se centran y desarrollan muchos métodos sobre la selección/importancia de las características y el ajuste del algoritmo, pero en lo que respecta a los datos de formación el enfoque principal es reunir más.
PD: google/literatura tiene mucha información sobre qué ml-algo usar para qué datos o cómo dividir datos de entrenamiento/prueba, pero esto no es lo que necesito. Clases desequilibradas se acerca más a mi pregunta, pero todavía no es exactamente lo que trato de encontrar.