2 votos

Incertidumbre sobre los parámetros ajustados en la extrapolación

Consideremos un fenómeno que evoluciona en el tiempo representado por una variable $y(t)$ cuya dinámica depende de un parámetro, por ejemplo la temperatura $\theta$ .

Tenemos dos series de mediciones a diferentes temperaturas constantes $\theta_1$ y $\theta_2$ . La trama se parece a esto:

Sketch of plot.

Las mediciones a una temperatura determinada no pueden considerarse independientes debido, digamos, a la imprecisión del control de las condiciones experimentales.

Las mediciones a diferentes temperaturas pueden considerarse razonablemente independientes.

Nos gustaría poder predecir la evolución temporal de $y$ a diferentes temperaturas.

Modelizamos la dinámica de $y$ como $y(t) = a(\theta) t$ que se utilizará posteriormente como $\dot{y} = a(\theta)$ .

Suponiendo un término de error aditivo, la estimación de $a$ es un problema de regresión estándar que puede resolverse mediante la optimización de mínimos cuadrados. El principal problema es la cantidad limitada de datos, sobre todo si se tiene en cuenta la dependencia entre series. Afortunadamente, algunas consideraciones físicas nos dicen que $a$ varía exponencialmente con la temperatura: $a(\theta) = \alpha \: e^{\beta / \theta}$ .

Ahora nos interesa modelar la incertidumbre sobre $\hat{\alpha}$ y $\hat{\beta}$ los estimadores de $\alpha$ y $\beta$ . ¿Qué procedimiento recomendaría?

Una idea sería utilizar bootstrap después del ajuste de mínimos cuadrados no lineales. Sin embargo, a nosotros nos interesa principalmente el área de la extrapolación, es decir, predecir el comportamiento de $y$ para $\theta \notin [\theta_1, \theta_2]$ (en realidad $\theta \leq \theta_1 \leq \theta_2$ y probablemente podríamos proporcionar un límite inferior para $a$ ).

2voto

jaradniemi Puntos 1535

Aquí es donde yo empezaría.

Inferencia bayesiana para un modelo de regresión no lineal

Sea $y_{i,t}$ sea la observación en el momento $t$ con temperatura $\theta_i$ donde $i=1,2$ (ya que hay dos temperaturas) y $t=1,\ldots,T$ (para simplificar, estoy suponiendo que las observaciones se toman a las mismas horas, pero esto podría modificarse fácilmente para situaciones en las que no sea así). Supongamos un error normal aditivo, es decir

$$ y_{i,t} \stackrel{ind}{\sim} N(\alpha e^{\beta/\theta_i}, \sigma^2). $$

Un enfoque bayesiano de la estimación requiere una prioridad sobre los parámetros, es decir. $p(\alpha,\beta,\sigma^2)$ y entonces la posterior es

$$ p(\alpha,\beta,\sigma^2|y) \propto p(\alpha,\beta,\sigma^2) \prod_{i=1}^2 \prod_{t=1}^{T} N\left(y_{i,t}; \alpha e^{\beta/\theta_i} t, \sigma^2\right). $$ que probablemente habrá que estimar computacionalmente, por ejemplo, mediante la cadena de Markov Monte Carlo.

Esta posterior puede proporcionar estimaciones puntuales, por ejemplo $E[\alpha|y]$ e incertidumbres, por ejemplo $V[\alpha|y]$ . Se pueden obtener previsiones para una nueva temperatura $\tilde{\theta}$ y el tiempo $\tilde{t}$ . Suponiendo que la respuesta es independiente de los datos anteriores dados los parámetros, la distribución de previsión es

$$ p(\tilde{y}|y) = \int \int \int N\left(\tilde{y};\alpha e^{\beta/\tilde{\theta}} \tilde{t}, \sigma^2\right) p(\alpha,\beta,\sigma^2|y) d\alpha d\beta d\sigma^2 $$

que probablemente también habrá que estimar computacionalmente.

Aunque esta distribución de previsiones tendrá más incertidumbre a la hora de extrapolar, las extrapolaciones seguirán estando muy influidas por el modelo, que puede o no ser muy bueno en las regiones extrapoladas y no habrá forma de saberlo.

Transformación del modelo en un modelo de regresión estándar

Si las observaciones son positivas y es razonable considerar un error multiplicativo en lugar de aditivo, puede convertir este problema en un problema de regresión estándar. Entonces, podríamos suponer

$$ y_{i,t} = \alpha e^{\beta/\theta_i} t e^{\epsilon_{i,t}}$$

donde $e^{\epsilon_{i,t}}$ es el error multiplicativo. Si tomamos logaritmos, entonces

$$ \log y_{i,t} = \log(\alpha) + \beta \frac{1}{\theta_i} + \epsilon_{i,t}. $$ Si suponemos $\epsilon_{i,t} \stackrel{ind}{\sim} N(0,\sigma^2)$ se trata de un modelo estándar de regresión lineal simple en el que $\log(\alpha)$ es el intercepto y $\beta$ es la pendiente de la temperatura inversa. Este modelo puede ajustarse trivialmente utilizando cualquier software de regresión.

Si se utiliza un enfoque bayesiano, también se puede obtener trivialmente la incertidumbre sobre $\alpha$ en lugar de $\log(\alpha)$ tomando muestras de $\log(\alpha)$ y exponenciando. Si se utiliza la priorización estándar ( $p(\log(\alpha),\beta,\sigma^2) \propto 1/\sigma^2$ ), la distribución prevista para $\log(\tilde{y})$ es Estudiante $t$ y puede encontrarse en la mayoría de los libros de texto bayesianos. La afirmación anterior sobre la extrapolación sigue siendo válida.

Si es razonable, yo optaría sin duda por este segundo enfoque.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X