1 votos

¿Cómo derivar los intervalos de predicción para la regresión de distancia ortogonal utilizando `scipy.odr`?

Preguntas

  • ¿Cómo puedo obtener intervalos de predicción para predicciones basadas en nuevas observaciones a partir de la salida de scipy.odr ?
  • ¿Es posible (o necesario) tener en cuenta las incertidumbres de las nuevas observaciones?

Antecedentes

Me gustaría realizar una regresión lineal entre dos conjuntos de variables, ambos con incertidumbres asociadas, y también poder derivar intervalos de predicción como parte del resultado.

He identificado la Regresión por Distancia Ortogonal (ODR) como un posible método por el que se podría hacer esto, y el scipy.odr como una implementación de este método.

Lo que no he podido encontrar es cómo utilizar la salida de esta biblioteca para obtener intervalos de predicción. Entiendo por esta página que necesito añadir -en cuadratura- la estimación de la desviación estándar del valor predicho y la estimación de la desviación estándar residual obtenida al ajustar el modelo a los datos, pero no estoy seguro de cómo derivar estas cantidades de la salida de scipy.odr . También estoy casi completamente inseguro de cómo tener en cuenta las incertidumbres de las nuevas observaciones, ya que seguramente éstas afectarán a los intervalos de predicción resultantes.

1voto

Ido Weinstein Puntos 901

[Estoy trabajando en la investigación de una respuesta completa, esto es lo más lejos que he llegado hasta ahora, editaré a medida que trabaje más en la solución].

Otras investigaciones han revelado este documento que proporciona al menos parte de la respuesta.

En resumen, los mínimos cuadrados ordinarios (MCO) no tienen en cuenta las incertidumbres en ninguno de los dos ejes, y los mínimos cuadrados ponderados (MPC) sólo tienen en cuenta las incertidumbres en la variable predictora / variable dependiente / en el eje y. La publicación mencionada aboga por el uso de los mínimos cuadrados bivariados (BLS) en lugar de la regresión por distancia ortogonal (ODR), pero continúa derivando fórmulas para los intervalos de predicción que parecen ser compatibles con la ODR.

En este enfoque, cada "punto de datos $\left(x_{i}, y_{i}\right)$ se considera el resultado de múltiples experimentos u observaciones en condiciones aparentemente iguales, lo que permite calcular la varianza del par de variables predictoras y de respuesta.

El predictor ( $x_{i}$ ) y la respuesta ( $y_{i}$ ) se relacionan mediante la siguiente ecuación

$y_{i}=b_{0}+b_{1} x_{i}+e_{i}$

donde $b_{0}$ et $b_{1}$ son las estimaciones de la intercepción y la pendiente del modelo lineal verdadero, y $e_{i}$ es el $i$ error residual. La varianza de $e_{i}$ se denomina factor de ponderación y se denota como $w_{i}$ o $s_{e_{i}}^{2}$ :

$w_{i}=s_{e_{i}}^{2}=s_{y_{i}}^{2}+b_{1}^{2} s_{x_{i}}^{2}-2 b_{1} \operatorname{cov}\left(x_{i}, y_{i}\right)$

donde $s_{x_{i}}^{2}$ et $s_{y_{i}}^{2}$ son las varianzas experimentales del punto $i$ y $\operatorname{cov}\left(x_{i}, y_{i}\right)$ es la covarianza entre las mediciones de cada $\left(x_{i}, y_{i}\right)$ par de datos.

La varianza de la variable de respuesta $y_{0}$ siendo la media de los $q$ observaciones realizadas en $x_{0}$ está dada por:

$s_{y_{0}}^{2}=\left(\frac{1}{q}+ X _{0}^{ T }\left( X ^{ T } W ^{-1} X \right)^{-1} X _{0}+s_{x_{0}}^{2} b_{1}^{2}\right) s^{2}$

donde $s^{2}=\frac{\sum_{i=1}^{n}\frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{w_{i}}}{n-2}$ es la estimación de la verdadera varianza experimental, $X_{0}$ es un vector columna de dos elementos $\left|\begin{array}{l} 1 \\ x_{0} \end{array}\right|$ y $X$ es un $n \times 2$ matriz para la cual la primera columna es una columna de unos y la segunda columna está formada por la $n$ valores de $x$ correspondientes a los puntos experimentales; $W$ es un $n \times n$ matriz diagonal cuyo $i$ elemento diagonal es el factor de ponderación $w_{i}$ definida anteriormente.

La varianza del valor medio del predictor en una observación determinada $y_{0}$ es

$s_{x_{0}}^{2}=\left( Y _{0}^{ T }\left( Y ^{ T } W ^{\prime -1} Y \right)^{-1} Y _{0}+s_{y_{0}}^{2} \frac{1}{b_{1}^{2}}\right) s^{\prime 2}$

donde $Y _{0}$ es $\left|\begin{array}{l} 1 \\ y_{0} \end{array}\right|$ , $Y$ es un $n \times 2$ matriz para la cual la primera columna es una columna de unos y la segunda columna son los valores de $y$ , $W^{\prime}$ es un $n \times n$ matriz diagonal cuyo $i$ elemento diagonal es el factor de ponderación $w_{i}^{\prime}=s_{x_{i}}^{2}+\frac{1}{b_{1}^{2}} s_{y_{i}}^{2}-2 \frac{1}{b_{1}} \operatorname{cov}\left(x_{i}, y_{i}\right)$ y $s^{\prime 2}$ el error experimental asociado a las variables predictoras, dado por

$s^{\prime 2}=\frac{\sum_{i=1}^{n} \frac{\left(y_{i}-\hat{y}_{i}\right)^{2}}{w_{i}^{\prime}}}{n-2}$

La varianza de la predicción de la variable predictora de una muestra futura en $y_{0}$ la media de $q$ observaciones, es

$s_{x_{0}}^{2}=\left(\frac{1}{q}+ Y _{0}^{ T }\left( Y ^{ T } W ^{-1} Y \right)^{-1} Y _{0}+s_{y_{0}}^{2} \frac{1}{b_{1}^{2}}\right) s^{\prime 2}$

Los intervalos de predicción de las variables de respuesta y predictoras vienen dados entonces por

$y_{0} \pm t_{\alpha, n-2} s_{y_{0}}$ $x_{0} \pm t_{\alpha, n-2} s_{x_{0}}$

donde $t_{\alpha, n-2}$ es el $t$ -valor para el nivel de significación requerido $\alpha$ et $n-2$ grados de libertad.

TODO: Interfaz para scipy.odr de salida.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X