Conclusiones
No tiene sentido el modelo de la varianza de los residuos de forma explícita, porque la varianza depende del procedimiento de ajuste, que no forma parte del modelo. Debemos modelar la varianza de los errores y luego, para nuestro elegido procedimiento de ajuste, podemos determinar la distribución de los residuos.
Supuestos
La pregunta es cómo interpretar "$\varepsilon_i$," pero desafortunadamente no definir $X$, $X_i$, o $\sigma^2$. Sin embargo, podemos hacer algunas conjeturas que pueden ser útiles:
Evidentemente cada una de las $\varepsilon_i$ es una variable aleatoria con una numérico (no vectorial) de valor, porque se refiere a un "error" o un residual.
Por lo tanto, "$\sigma^2 \times X_i$ " debe ser un número. Tomando $\sigma^2$ a ser un parámetro de escala, llegamos a la conclusión de que el $X_i$ son números.
El $X_i$ podría ser variables aleatorias, pero si es así, este es un complicado modelo. Por simplicidad (y porque esto no afecta a los conceptos o de la naturaleza de la posterior análisis), vamos a llevarlos a ser valores fijos (uno para cada una de las $i$). Así que, vamos a la $X_i$ ser independiente o valores de las covariables, los tratan como a conocidos y medir sin error apreciable.
Reformulación de la pregunta
Esta es una situación de regresión general de configuración. Para ser claros y específicos, dejar que el índice de $i$ designar observaciones; para cada una de las $i$, vamos a $Z_i$ ser un vector de valores independientes; deje $g$ ser un (conocido) con un valor real de la función de con $X_i = g(Z_i)$; deje $\theta$ ser un vector de (desconocido) de los parámetros del modelo a ser estimado; deje $Y_i$ ser el dependiente de valores; deje $\sigma$ ser otro (escalares) parámetro, conocido o desconocido; y deje $f$ el (conocido) de la función mencionada en la pregunta. En estos términos supongo que el modelo en cuestión es de la forma
$$Y_i = f(Z_i, \theta) + \varepsilon_i$$
y los errores de $\varepsilon_i$ son asumidos para ser independiente, distribuido normalmente con cero significa, y tienen varianza
$$Var(\varepsilon_i)=\sigma^2 g(Z_i).$$
Deje $\hat{\theta}$ ser de cualquiera de las estimaciones de los parámetros. Específicamente, $\hat{\theta}$ es algo de la función $t$ de todos los datos:
$$\hat{\theta} = t(\mathbf{Z}, \mathbf{Y}) = t(\mathbf{Z}, f(\mathbf{Z}, \theta)+\mathbf{\varepsilon})$$
($\mathbf{Z}$ es el vector de $Z_i$, $\mathbf{Y}$ es el vector de $Y_i$, e $\varepsilon$ es el vector de $\varepsilon_i$). $t$ es el estimador de frecuencia de los mínimos cuadrados o de máxima verosimilitud.
El equipado por tanto, el modelo es
$$\hat{Y} = f(Z, \hat{\theta})$$
y los residuos, por definición, son
$$e_i = \hat{Y_i} - f(Z_i, \hat{\theta}).$$
Ahora la pregunta, al menos como yo la he interpretado, se pueden formular:
"Sería correcto decir que el $Var(\varepsilon)$ debe ser modelado
como una función de la $X$ o sería mejor decir que $Var(e)$ debe
ser modelada como una función de la $X$?"
Análisis
En este punto es claro que el $\varepsilon_i$ tienen nada que ver con el procedimiento de ajuste o de las estimaciones de los parámetros de $\hat{\theta}$. Recordando que $\hat{\theta}$ es determinado por el procedimiento de estimación $t$ y $t$ es determinista (es una función específica de sus argumentos), se observa que el $e_i$ son al azar, sólo en la medida de lo $t$ depende de los errores de $\varepsilon_i$. Por lo tanto, sus variaciones, $Var(e_i)$, dependen (potencialmente en una forma complicada) en $t$ sí. Tratando de modelo de $Var(e)$ inextricablemente enlace del modelo subyacente (una descripción aproximada de la realidad) con la estimación de los parámetros de procedimiento, que tiene poco sentido y que sólo podía ser contraproducente.