Como se menciona en el comentario de @assumednormal, la regresión por mínimos cuadrados estándar requiere linealidad en los coeficientes. En otras palabras, tenemos que ser capaces de escribir el resultado como:
$Y = X\beta + \epsilon$
La matriz de variables independientes $X$ sin embargo, puede ser no lineal. Por ejemplo, lo siguiente pertenece a este modelo
$Y_i =\alpha_y + f_1({X_1}_i)\beta_1 + f_2({X_2}_i)\beta_2 + {X_1}_i{X_2}_i\beta_3 + \epsilon_i$
donde $f_1({X_1})$ y $f_2({X_2})$ son funciones no lineales de $X_1$ y $X_2$ y claramente el término de interacción $X_1X_2$ es no lineal.
Por otro lado, la regresión no lineal suele escribirse como $y_i = x_i(\beta) + \epsilon_i$ , donde $x_i(\beta)$ es no lineal en los propios coeficientes. Su ejemplo $y_i = \beta_1 e^{(X_i\beta_2)} +\epsilon_i$ sería un ejemplo de esta forma. Sin embargo, bajo el supuesto de que $E[y_i|X_i] >0$ (lo que implica que $\beta_1 >0$ ) podríamos modelar $\log(E[y_i|X_i])$ como un modelo lineal.
\begin{align} E[y_i|X_i] &= \beta_1 e^{(X_i\beta_2)}\\ \log(E[y_i|X_i]) &= \log(\beta_1) + X_i\beta_2\\ \end{align}
Donde $\log(\beta_1) \in \mathcal{R}$ es sólo un número como un término de intercepción normal. Así que este es un ejemplo de mínimos cuadrados no lineales y podría ser tratado y estimado como tal, pero bajo algunas condiciones y objetivos todavía puede ser linealizado y estimado. En el capítulo 6 de Econometric Theory and Methods (Davidson y McKinnon) se discute esto y se dice de forma más general que muchos modelos no lineales pueden reformularse en la forma de una regresión lineal, pero a veces con restricciones no lineales en el coeficiente mismo (si hay restricciones no lineales en $\beta$ no podemos utilizar la fórmula estándar para estimar correctamente). En otras palabras, puede haber definiciones ligeramente diferentes de lo que constituye un modelo lineal. A menudo, implícitamente, la gente quiere decir que con alguna transformación o reparametrización se puede estimar con mínimos cuadrados ordinarios.
Lo que nos lleva a su ejemplo principal $Y = \beta_0 + X_1\beta_1^2 + X_2\beta_2 + \epsilon$ Lo cual es una interesante zona gris en mi opinión. De hecho, podemos reparametrizarlo para que sea un modelo lineal, pero hay que tener cuidado con el espacio de parámetros y no se puede estimar con mínimos cuadrados ordinarios.
En este caso, el único problema es que $\beta_1^2\geq 0$ , lo que implica una restricción en el coeficiente. Podríamos reparametrizar el modelo, con un nuevo coeficiente digamos $\beta_1^{\star} = \beta_1^2$ y escribir el modelo como
\begin{align} y = \beta_0 + \beta_1^{\star}1\{\beta_1^{\star} \geq 0\}X_1 + X_2\beta_2 +\epsilon \end{align}
Se trata de una función lineal en parámetros sobre el espacio de parámetros $(\beta_0,\beta_1,\beta_2) \in (\mathcal{R},\mathcal{R}^{+},\mathcal{R})$ . Los mínimos cuadrados ordinarios no pueden garantizar una solución en este espacio de parámetros, pero este es un caso especial de mínimos cuadrados no negativos, donde estamos resolviendo el problema de minimización
\begin{align} \underset{(\beta_0,\beta_1,\beta_2):\beta_1^{\star} \geq 0}{\operatorname{argmin}} ||Y - \beta_0 - \beta_1^{\star}X_1 - \beta_2X_2||^2 \end{align}
Este es un problema de minimización convexa y las soluciones son bien conocidas (ver por ejemplo este artículo sobre su aplicación en altas dimensiones https://arxiv.org/pdf/1205.0953.pdf )
Así que no, no es técnicamente OLS, sino lineal sobre un espacio de parámetros restringido y las restricciones son lineales. Pero esto no es lo que la gente quiere decir cuando dice linealizable.