El teorema de sustitución de Lebesgue nos dice que para cualquier mapa $A: \mathbb{R}^n \to \mathbb{R}^n$ que es 'lo suficientemente' (difeomorfismo) tenemos
$$\int_{\mathbb{R}^n} f(x) dx = \int_{\mathbb{R}^n} f(A(x)) |\det \partial A(x)| dx$$
donde $\partial A$ es la matriz de Jacobi. Para un mapa lineal $A$ tenemos $\partial A(x) = M$ donde $M$ es la matriz representativa de $A$. Tomamos un vector fijo no nulo $\phi_1 \in \mathbb{R}^n$ y lo completamos a cualquier base ortonormal $\phi_1, \phi_2, ..., \phi_n$ (por ejemplo, usando el algoritmo de Gram-Schmidt: https://en.wikipedia.org/wiki/Gram%E2%80%93Schmidt_process), es decir, $$\langle \phi_i, \phi_j \rangle = \mathbf{1}_{i=j}$$ es decir, es uno si $i=j$ y cero en caso contrario.
Ahora consideramos la función $$f(x) = \delta(a - x^T\phi_1) g(x)$$ para cualquier otra función 'agradable' (es decir, medible para que todo el conjunto pueda ser integrado, tu función es 'lo suficientemente' agradable :-)) $g$. Consideramos el mapa lineal biyectivo $$A : \mathbb{R}^n \to \mathbb{R}^n, ~~~ A(e_i) = \phi_1$$ donde $e_i = (0, ..., 0, \underbrace{1}_{i-\text{ésima posición}}, 0, ..., 0)^T$ es el vector estándar regular en la posición $i$. Esta matriz tiene la matriz representativa $M$ donde los vectores $\phi_1, ..., \phi_n$ con respecto a la base estándar son las columnas. Tal matriz debe tener determinante $\pm 1$: Como los vectores son ortogonales entre sí y $M^T \cdot M$ contiene el producto escalar $\langle \phi_i, \phi_j \rangle$ como entrada $i, j$, $$M^T \cdot M=I$$ donde $I$ es la matriz identidad. Por lo tanto, $\det(M)^2 = \det(M^T \cdot M) = \det(I) = 1$.
Usando la sustitución anterior obtenemos $$\int_{\mathbb{R}^n} f(x) dx = \int_{\mathbb{R}^n} f(A(x)) |\det \partial A(x)| dx = \int_{\mathbb{R}^n} f(A(x)) |\pm 1| dx = \int_{\mathbb{R}^n} f(A(x)) dx$$
Ahora, ¿qué sucede cuando escribimos $A(x)$ en $f$? En primer lugar, nos damos cuenta de que $$x^T\phi_1 = \langle x, \phi_1 \rangle$$ y también $$A(x) = A(x_1, ..., x_n) = x_1\phi_1 + ... x_n \phi_n$$ para que $$A(x)^T \phi_1 = \langle x_1\phi_1 + ... x_n \phi_n, \phi_1 \rangle$$ pero como todos los $\phi_j$ son ortogonales a $\phi_1$ excepto $\phi_1$ mismo, obtenemos $$A(x)^T \phi_1 = \langle x_1\phi_1 + ... x_n \phi_n, \phi_1 \rangle = x_1$$ y consecuentemente \begin{align*} \int_{\mathbb{R}^n} f(A(x)) dx &= \int_{\mathbb{R}^n} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n)dx\\ &= \int_{\mathbb{R}} ... \int_{\mathbb{R}} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n) dx_1 dx_2 ... dx_n \\ \end{align*}
Ahora aquí viene un problema: El autor del libro al que te refieres parece pensar que $$\int_{\mathbb{R}} \mathbf{1}_{x_1 = a} \text{algunafunción}(x_1) dx_1 = \text{algunafunción}(a)$$
lo cual es una visión 'ingenua' de los físicos sobre el mundo (¡porque una integral formal sobre una función que es cero casi en todas partes es ciertamente cero!). Así que, repetido una vez más:
* ¡FORMALMENTE, ESTO ES UN DISPARATE, ES INCORRECTO! *
Sin embargo, si se interpreta correctamente, esto podría funcionar (aunque no estoy absolutamente seguro de este punto). Por lo general, la gente no toma la delta 'dura' $\mathbf{1}_{a=w^T\phi}$ sino algún núcleo 'suave' que permite valores diferentes a $a=w^T\phi$ pero solo cercanos y lo 'cercano' se acerca dentro de un límite o algo así. En cualquier caso: Si quieres hacerlo formalmente correctamente, entonces es más complicado.
Sin embargo, si seguimos el camino 'incorrecto' anterior, entonces obtenemos \begin{align*} \int_{\mathbb{R}^n} f(A(x)) dx &= \int_{\mathbb{R}^n} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n)dx\\ &= \int_{\mathbb{R}} ... \int_{\mathbb{R}} \delta(a-x_1) g(x_1\phi_1 + ... + x_n \phi_n) dx_1 dx_2 ... dx_n \\ &= \int_{\mathbb{R}} ... \int_{\mathbb{R}} g(a\phi_1 + ... + x_n \phi_n) dx_2 ... dx_n \end{align*}
ves: Tomamos la función $g$ e integramos en todas las direcciones $\phi_2, \phi_3, ..., \phi_n$ que son ortogonales a $\phi_1$.