Estoy tratando de entender la generación a partir de un VQ-VAE con PixelCNN previo. Sobre todo, tengo curiosidad acerca de cómo ir sobre la generación de variaciones de una determinada "clase", o un objeto. Mi (nebuloso) entendimiento, por el momento, es que el modelo cuantiza el espacio latente, de modo que los vectores asociados con un punto de cuantización dado representan una "clase" similar, o al menos alguna forma de similitud entre las imágenes. Pero no tengo claro cómo explorar variaciones de una de esas clases. (Intuitivamente, variaría la latente, claro, pero ¿cómo evitaría pasar a otro cluster/clase?).
En concreto, mi aplicación consiste en tomar una entrada dada (x) y producir variaciones de esa entrada (x1 ... xN) que mantengan alguna relación perceptible con el original. ¿Es el VQ-VAE + PixelCNN una buena opción para esta tarea? Debo mencionar que, aunque puedo proporcionar etiquetas de clase, también estoy interesado en modelos que puedan clasificar o agrupar de forma autosupervisada. Si proporcionara etiquetas, habría un número relativamente grande de ellas (por ejemplo, más de 200). Además, me interesará la generación/muestreo directo, sin una entrada x.