Creo que estás describiendo un proceso que es una descripción bastante precisa de cómo los teóricos de conjuntos suelen pensar en cuestiones de consistencia, donde Set1 es el relato informal de la jerarquía acumulativa, tal y como es iluminado por nuestras otras investigaciones formales, Set2 es ZFC, y Set3 no es una, sino una familia de teorías de conjuntos más fuertes obtenidas por algo así como tu proceso de reflexión de vuelta a Set1, que llamaré Set3*.
La mayor divergencia es que los lógicos no hablan de que Set1 demuestre nada, porque no tiene ningún tipo de teoría de la prueba, que es como otros han indicado su respuesta. En cambio, Set1 "justificará" los axiomas de Set2, y "fundamentará" o "sugerirá" axiomas propuestos para Set3*.
Así que lo que saco de tu discusión sobre la aplicación de la incompletitud es (i) una indicación más de que Set1 no tiene teoría de la prueba, ya que es una fuente abundante y falible de nueva fuerza teórica de la prueba, (ii) que la jerarquía gödeliana de la fuerza teórica de la prueba debe ser una guía cuando investigamos las teorías en Set3*, y (iii) no hay realmente ninguna señal de un modelo, además de las que obtenemos de las axiomatizaciones por cortesía del teorema de completitud.
Creo que es esclarecedor contrastar la situación de la consistencia para la teoría de conjuntos con la de la aritmética, donde Gentzen dio una prueba teórica de consistencia directamente fundamentada en la intuición combinatoria. Allí, Arith1, nuestra intuición aritmética, juega un papel más directo en el apuntalamiento de Arith2, la aritmética de Peano, y donde el análisis de la jerarquía gödeliana muestra que la consistencia de la teoría es equivalente en fuerza a la verdad del principio combinatorio elemental. Desgraciadamente, no sabemos cómo construir tales principios combinatorios lo suficientemente fuertes como para demostrar la consistencia de ZFC.