Añadiendo a las otras respuestas: En general no se puede demostrar que, $(X^T X)^{-1}$ se pone a cero cuando $n \rightarrow \infty$ . Necesitarías más supuestos, y no los has especificado. Como ejemplo sencillo, dejemos que el modelo sea un ANOVA de una vía que compare $p$ grupos, codificados como variables ficticias ( $p$ dummys sin intercepción explícita). Dejemos que el número de observaciones en el grupo $i$ sea $n_i$ con $n_1+n_2+\dotsb+n_p$ . Entonces la matriz de diseño $X$ se convierte en $$ X=\begin{bmatrix} 1 & 0 & 0 &\dots & 0 \\ 1 & 0 & 0 &\dots & 0 \\ \dots \\ 1 & 0 & 0 & \dots & 0 \\ 0 & 1 & 0 & \dots & 0 \\ \dots \\ 0 & 1 & 0 & \dots & 0 \\ \vdots \\ 0 & 0 & 0 & \dots & 1 \\ \dots \\ 0 & 0 & 0 & \dots & 1 \end{bmatrix} $$ con $n_1$ filas en el primer bloque, y así sucesivamente. A continuación, $X^T X$ se convierte en una matriz diagonal con el $n_i$ a lo largo de la diagonal, y su diagonal inversa con $1/n_i$ a lo largo de la diagonal. Si ahora sólo puede obtener cinco observaciones del primer grupo, pero el otro $n_2, n_3, \dotsc, n_p$ todo aumenta hasta el infinito con $n$ entonces el límite de $(X^T X)^{-1}$ se convierte en la matriz diagonal $$ \begin{bmatrix} 1/5 & 0 & 0 &\dots \\ 0 & 0 & 0 &\dots \\ 0 & 0 & 0& \dots \\ \vdots \\ 0 & 0 & \dots & 0 \end{bmatrix} $$ que no es la matriz cero.
Así que, en general, podemos asumir el modelo $y_i = x_i^T \beta + \epsilon_i$ donde las perturbaciones $\epsilon_1, \dotsc,\epsilon_n$ son variables aleatorias iid de alguna distribución con media cero y varianza común $\sigma^2$ . En forma de matriz podemos escribir este modelo $ Y= X\beta+\epsilon$ y podemos preguntar por la estimación de algunos contraste del vector de parámetros $\beta$ , digamos que $c^T \beta$ definido por el vector de contraste $c$ . En nuestro ejemplo de anova, la media del grupo $i$ viene dado por el contraste $c^T \beta$ con $c=e_i$ , $e_i$ el vector unitario con un uno en la posición $i$ . Así que la media del primer grupo es el contraste $e_1^T \beta$ . En este ejemplo, la varianza de la estimación (de mínimos cuadrados) del contraste $c^T\beta$ , $c^T \hat{\beta}$ se irá a cero con $n$ para algunos vectores de contraste, y no para otros.
Así que, en general, podemos pedir formas de caracterizar esos vectores de contraste $c$ tal que la varianza límite es cero, donde la varianza del contraste estimado es $$ \text{Var}(c^T \hat{\beta})=\sigma^2 c^T (X^T X)^{-1} c $$ o para las condiciones que garantizan que la varianza límite es cero para todos los vectores de contraste $c$ (que corresponderá a la pregunta original formulada aquí). Una de esas condiciones podría ser que las filas $x_i$ de la matriz de diseño $X$ se obtiene como una muestra iid de alguna distribución común (con algunas condiciones necesarias sobre esa distribución común, ningún componente puede tener varianza cero, por ejemplo).
Hay un artículo dedicado a dar esas condiciones con mucho detalle: Chien-Fu Wu: "Characterizing the consistent directions of least squares estimates", the annals of statistics, 1980, vol 8 No 4 789--801 http://projecteuclid.org/euclid.aos/1176345071