En muchos de aprendizaje automático de las aplicaciones, los llamados datos de aumento métodos han permitido construir mejores modelos. Por ejemplo, supongamos que un entrenamiento conjunto de 100 imágenes de gatos y perros. Por la rotación, reflejo, el ajuste de contraste, etc. es posible generar imágenes a partir de las originales.
En el caso de las imágenes, los datos de aumento es relativamente sencillo. Sin embargo, supongamos que (por ejemplo) que uno tiene un conjunto de entrenamiento de 100 de muestras y unos cientos de variables continuas que representan diferentes cosas. Los datos de aumento de no más parece tan intuitivo. ¿Qué se podría hacer en tal caso?