Comienza por pensar en $\hat\theta$ y $\theta_0$ como vectores en lugar de valores únicos. De manera similar, piensa en $var(\hat\theta)$ como una matriz. Esa es la matriz de varianza-covarianza para las estimaciones de los coeficientes, con elementos diagonales siendo las varianzas de los coeficientes individuales y elementos fuera de la diagonal siendo las covarianzas de los coeficientes necesarias para estimar las varianzas de las combinaciones lineales de coeficientes (como se necesita para estimar errores en predicciones basadas en el modelo).
Como reconoces en la tercera parte de tu pregunta, $var(\hat\theta)$ está relacionado con el rendimiento del modelo: es el inverso de la negativa de la matriz de segundas derivadas del logaritmo de la verosimilitud calculado en la máxima verosimilitud, como se explica, por ejemplo, en esta página. Una función de verosimilitud más "aguda" (segundas derivadas más grandes) tendrá varianzas más pequeñas para los coeficientes. El software estadístico estándar debería proporcionar una forma de obtener $var(\hat\theta)$ para un modelo ajustado maximizando la verosimilitud.*
Una vez que tengas la matriz de varianza-covarianza, puedes usar una prueba de Wald para hipótesis sobre múltiples combinaciones lineales de coeficientes, como se describe en la página de Wikipedia. Considera una prueba de hipótesis en el vector completo de $p$ coeficientes estimados,
$$\hat\theta=(\hat\theta_1,\hat\theta_2,...,\hat\theta_i,...,\hat\theta_p)^T.$$
Para una prueba contra un vector correspondiente de valores hipotéticos $\theta_0$, la estadística de Wald sería el valor $(\hat\theta-\theta_0)^T var(\hat\theta)^{-1} (\hat\theta-\theta_0)$, probado contra chi-cuadrado con $p$ grados de libertad.**
Si solo deseas probar un coeficiente específico, la fórmula se simplifica a:
$$\frac{(\hat\theta_i-\theta_{0i})^2}{var(\hat\theta_i)}$$
la estadística de Wald para un solo coeficiente, probado contra chi-cuadrado con 1 grado de libertad.
Si tienes un modelo con términos no lineales o de interacción que involucran un predictor, una prueba de su significancia incluyendo tales términos es similar a lo anterior, probando una estadística de Wald basada en el subconjunto de coeficientes que lo incluyen.
En general, qué componentes incluyes en $\hat\theta$ y $\theta_0$ para una prueba de Wald depende de tu hipótesis específica sobre los coeficientes.
*Puede haber valor en generar una matriz de varianza-covarianza a partir de múltiples muestras bootstrap, como sugieres en la primera parte de tu pregunta.
**Utiliza la matriz identidad de tamaño $p$ como la matriz llamada $R$ en la fórmula en la página de Wikipedia.