Creo que hay algunas cuestiones relacionadas, aunque separadas, que deben abordarse aquí.
1) ¿Cómo sabemos que la métrica de Minkowski es una métrica plana?
Hay varias formas de abordar esta cuestión. Tal vez la más rigurosa sea calcular el tensor de Riemann, ya que este enfoque te da cantidades que son independientes del sistema de coordenadas. OP, en tu pregunta tal y como está escrita ahora, has escrito la métrica con respecto a las coordenadas cartesianas. Una métrica de Minkowski sigue siendo Minkowski aunque esté escrita en otros sistemas de coordenadas, y sigue siendo plana.
2) ¿Por qué esperamos que el universo se modele con una métrica plana?
Esto se basa tanto en la lógica matemática como en las observaciones físicas. Incluso cuando esperamos que el universo esté curvado de alguna manera, cualquier colector curvado parecerá plano a una escala de longitud suficientemente pequeña. Una vez que hemos decidido que vivimos en una variedad arbitraria curvada y diferenciable, el argumento del espacio plano es pura matemática: las matemáticas nos dicen que es así, pero no nos dicen a qué escalas de longitud debemos limitarnos para que sea así. Eso hay que determinarlo mediante la observación. Sin embargo, basarse en un modelo de espacio plano nos da un buen punto de partida para llegar a la RG, por lo que suele ser útil.
3) ¿Por qué elegimos entonces el espacio de Minkowski como modelo? ¿Qué consideraciones físicas impulsan esta elección del modelo?
La geometría diferencial te dirá que sólo hay tres plano modelos de geometrías: El espacio de Minkowski, el espacio galileano y el espacio euclidiano. Cada uno de ellos puede parametrizarse con diferentes sistemas de coordenadas, pero estos son los sólo modelos planos de los que disponemos y que cumplen ciertos criterios generales. En particular, nos limitamos a una dimensión temporal, que puede o no tener una firma diferente de las dimensiones espaciales. En el espacio de Minkowski, la dimensión temporal tiene el signo contrario en su componente métrica. En el espacio de Galilgen, la dimensión temporal es null y tiene cero para su componente métrica. En el espacio euclidiano, tiene el mismo signo que las dimensiones espaciales.
Aquí es donde entra la física: sabemos que la velocidad de la luz parece invariante en todos los marcos de referencia. Asociamos diferentes marcos de referencia con transformaciones de tipo rotativo en cada uno de estos espacios que mezclan el tiempo y el espacio. En el espacio de Minkowski, la transformación de rotación es la potenciación de Lorentz. En el espacio galileano, la transformación es una transformación galileana. En el espacio euclidiano, la operación es simplemente una rotación. Estas operaciones son únicas para cada tipo de modelo de espaciotiempo, por lo que no hay ambigüedad.
Para medir la misma velocidad de la luz, se acaba concluyendo que la luz sigue una trayectoria invariante bajo la transformación de rotación. Eso descarta el espacio euclidiano, ya que no hay vectores en el plano de rotación que no se transformen. También descarta el espacio galileano, ya que sólo hay un vector que no cambia bajo una transformación galileana -la dirección del tiempo- y esa dirección no tiene velocidad con respecto al observador en ningún marco de referencia galileano.
Por tanto, la única opción es el espacio de Minkowski, que admite dos vectores que la luz puede seguir en cualquier plano, y ambos implican trayectorias que se miden como si tuvieran la misma velocidad de coordenadas independientemente del marco de referencia.
El espacio de Minkowski es el único modelo de espaciotiempo plano que nos permite asociar la luz con trayectorias específicas en el espaciotiempo y de forma corresponden a nuestras observaciones físicas.