4 votos

Cómo calcular un factor de corrección para dos conjuntos de números

Supongamos que se tiene un conjunto de números. Para ayudar a entender mi pregunta, supongamos que estos números provienen de dos sensores de temperatura diferentes. En este primer ejemplo, ambos sensores están situados en el mismo entorno y deberían leer la misma temperatura

Col 1     Col 2
10        10
20        19
30        29
20        20
20        19
30        30
20        19
10        9
20        20
30        28

Como los sensores están en el mismo entorno, deberían leer lo mismo, pero no lo hacen, así que tengo que corregir su desplazamiento. Para calcular un factor de corrección entre estos dos conjuntos de números, de modo que la columna 2 sea lo más igual posible a la col 1, hago un análisis de regresión. Para una regresión lineal la ecuación sería:

y=0.8041x + 3.7143

o

Col 2= 0.8041 * Col 1 + 3.7143

Ahora supongamos que tengo una segunda serie de números. En este segundo ejemplo, los números representan los mismos sensores, pero esta vez están situados en entornos diferentes. Así que espero que se lean de forma diferente, pero también espero que conserven el mismo error que calculé anteriormente

Col 3     Col 4
11        10
21        19
30        27
20        20
21        19
30        25
20        18
11        15
20        20
30        25

Mi pregunta es: ¿hay alguna manera de aplicar el mismo factor de corrección calculado a partir del primer conjunto de números al segundo conjunto? Para ser más específico, no estoy buscando hacer esto:

Col 4= =0.8041* Col 3 + 3.7143

y conseguir esto

Col 3     Col 4 (new based on regression)
11      12.5
21      20.6
30      27.8
20      19.7
21      20.6
30      27.8
20      19.7
11      12.5
20      19.7
30      27.8

ya que pierdo toda la información sobre la columna 4 original. Espero encontrar una manera de utilizar el factor de corrección de la Col 1 y Col 2 como una "calibración", y aplicarlo a la columna 4 de una manera que conserva la información original en esa columna, pero lo ajusta para reflejar la ecuación de calibración.

Si asumo que la Col 3 es correcta y la Col 4 no, estaba pensando que la ecuación sería algo así

Col 4 corregida= Col 4 * (factor de corrección)

3voto

Halfgaar Puntos 2866

Para responder a su pregunta, veamos qué significa "error" y qué tipos de error puede tener.

En tu primer problema, tienes un sistema sobredeterminado: dos mediciones para un punto de datos en cada momento, por lo que una regresión lineal es esencialmente lo mismo que resolver el problema de mínimos cuadrados lineales para $A^TAv=A^Tb$ y $y = v_1x+v_2$ .

El resultado es un modelo en el que el segundo sensor $y$ devuelve una versión escalada del primer sensor $x$ más una compensación. No es cierto que la compensación, $v_2$ es el "error" -- a menos que $v_1$ está cerca de $1$ . Esto se debe a que el factor de escala $v_1$ es una pendiente, y el factor de desplazamiento se introduce para minimizar el error al cuadrado en todo el rango de valores.

El error puede considerarse aleatorio (fluctuaciones inciertas o incognoscibles del proceso observado) o sistemático (un desplazamiento medio del valor observado debido a la incertidumbre del proceso de observación). Lo que se quiere calcular es el error sistemático del sensor 2 con respecto al sensor 1.

En este caso, lo que yo haría es calcular la diferencia media entre las mediciones, en lugar de utilizar el desplazamiento de la regresión lineal. Esto le dará una estimación de la cantidad por la que el sensor 2 difiere del sensor 1. Sólo entonces podrá cuantificar la posible deriva relativa en un entorno diferente.

Así que, $$\epsilon = \frac{1}{n}\displaystyle\sum_{i=1}^n x_i-y_i,$$ $$y = x+\epsilon.$$

0voto

Tone Stangeland Puntos 21

Me gusta la respuesta de Ed. No veo en absoluto que la regresión tenga sentido para este problema. Estoy especialmente de acuerdo en que los dos deben diferir por un error aditivo no con una pendiente <1 más un desplazamiento. Pero además no hay ninguna razón para decir que el sensor 1 es correcto y el sensor 2 es el que está en error si hay una discrepancia. De hecho, es probablemente más razonable pensar que ambos se miden con error y la media de los dos tenderá a estar más cerca de la verdad que cualquiera de ellos por separado.

Dejemos que s $_1$ ser sensor 1 $_s$ medición y s $_2$ sensor 2 $_s$ medida. Entonces mi modelo sería que s $_1$ =x+e $_1$ y s $_2$ =x+e $_2$ donde e $_1$ y e $_2$ son variables aleatorias de error iid con media 0 y la misma varianza s $^2$ entonces s $_b$ =(s $_1$ +s $_2$ )/2=x+(e $_1$ +e $_2$ )/2. Por lo tanto, s $_1$ y s $_2$ ambos tienen media x y varianza s $_2$ mientras que s $_b$ tiene una media x y una varianza s $^2$ /2.

si tomamos la varianza muestral de s $_1$ -s $_2$ será una estimación no sesgada de 2s $^2$ . Si lo dividimos por 4, tenemos una estimación insesgada de la varianza de s $_b$ .

Utilice s $_b$ como la estimación corregida basada en s $_1$ y s $_2$ y tenemos una estimación de su incertidumbre.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X