Dicen que tenemos $n$ observaciones (o tamaño de la muestra) y $p$ parámetros.
La matriz de covarianza $\operatorname{Var}(\hat{\beta})$ de la estimación de los parámetros de $\hat{\beta}_1,\hat{\beta}_2$ etc. es una representación de la precisión de los parámetros estimados.
Si en un mundo ideal, los datos podrían ser perfectamente descrito por el modelo, y luego el ruido va a ser $\sigma^2= 0$. Ahora, las entradas de la diagonal de a $\operatorname{Var}(\hat{\beta})$ corresponden a $\operatorname{Var}(\hat{\beta_1}),\operatorname{Var}(\hat{\beta_2})$ etc.
La derivada de la fórmula para la varianza está de acuerdo con la intuición de que si el ruido es menor, las estimaciones serán más precisos.
Además, como el número de mediciones se hace más grande, la varianza de los parámetros estimados disminuirá. Entonces, en general, el valor absoluto de las entradas de $X^TX$ va a ser mayor, ya que el número de columnas de a $X^T$ $n$ y el número de filas de a$X$$n$, y cada entrada de $X^TX$ es una suma de $n$ producto pares. El valor absoluto de las entradas de la inversa de la $(X^TX)^{-1}$ será menor.
Por lo tanto, incluso si hay un montón de ruido, todavía podemos llegar a obtener buenas estimaciones $\hat{\beta_i}$ de los parámetros si se aumenta el tamaño de la muestra $n$.
Espero que esto ayude.
Referencia: Sección 7.3 de mínimos cuadrados:
Cosentino, Carlo, y Declan Bates. El control de retroalimentación en la biología de sistemas. Crc Press, 2011.