2 votos

¿Cuál es la mejor estimación a partir de muy pocas observaciones?

Mi problema actual, tengo tres sensores, $A$, $B$ y $C$ que miden todas la misma propiedad física y que creo que pueden considerarse como variables aleatorias independientes e idénticamente distribuidas, tal vez Gaussianas.

Entonces, estos tres sensores pueden tener, por ejemplo, diferentes sesgos (del valor verdadero). Dado que solo hay tres mediciones, ¿cuál es la mejor manera de combinar las tres medidas para obtener una mejor estimación del valor verdadero? No puedo creer que tomar el promedio sea una buena elección, ya que una medida (que podría considerarse un 'valor atípico') podría estar muy lejos de las otras dos que podrían estar más cerca entre sí.

La medida de la mediana podría ser una buena elección, pero en el ejemplo anterior esencialmente descarta el valor atípico. ¿No debería esa medida tener algún peso en este caso?

¿Cuál es la mejor manera de combinar estas mediciones para lograr una mejor estimación del valor verdadero? ¿O necesito más información o suposiciones?

3voto

BruceET Puntos 7117

Necesitas determinar (a) si las diferencias entre A, B y C se deben a la variación aleatoria entre mediciones independientes, distribuidas de manera idéntica o (b) si una o más de A, B y C tienen un sesgo sistemático (tal vez A tienda sistemáticamente a dar una lectura más alta que B, o C). Dices que A, B y C están distribuidas de manera idéntica, pero suena como si no lo creyeras realmente.

Si es (a), y si las lecturas están distribuidas de manera normal, entonces el promedio (o 'media') es mejor. Si las lecturas resultan estar distribuidas según una distribución de Laplace, entonces la mediana sería mejor.

Necesitarías hacer un experimento para determinar si es (b). Podrías hacer que los tres sensores midan la misma entrada en varios experimentos. Luego utilizar un ANOVA para ver si hay diferencias sistemáticas entre las lecturas de A, B y C. Si es así, quizás deberías ajustar físicamente los sensores para que las lecturas sean iguales. O si el ajuste es imposible, al menos sabrías cómo ajustar las salidas numéricas de cada sensor antes de promediar las tres.


Nota: La teoría de distribución para las medianas de normales puede estar más allá de lo que puedes hacer. Pero para la situación (a), una simple simulación da una idea de que, para datos normales, la media de tres es, como sospechas, un resumen más estable (menos variable) que la mediana de tres.

Para una entrada particular, supongamos que A, B y C dan medidas distribuidas como $\mathsf{Norm}(\mu = 50, \sigma = 3).$ Simulemos 10,000 ejecuciones con una medición de cada sensor. Luego, la teoría estadística elemental dice que la desviación estándar (SD) de las medias de tres es $\sigma/\sqrt{3} = \sqrt{3} = 1.73.$ La simulación coincide con eso y aproxima la SD de las medianas en 2.02, que es notablemente más grande.

El código para la simulación en R se muestra a continuación, en caso de que sea de interés;

m = 10^4;  n = 3;  x=rnorm(m*n, 50, 3)
MAT = matrix(x, nrow=m)
a = rowMeans(MAT);  h = apply(MAT,1,median)
mean(a); mean(h)
## 49.9931   # aprox. esperado de medias = 50
## 49.97891  # aprox. esperado de medianas = 50
sd(a); sd(h)
## 1.735878  # aprox. SD de medias = 1.732
## 2.022162  # aprox. SD de medianas

Nota: Hace aproximadamente 200 años, Gauss y Laplace reportadamente tuvieron 'discusiones' sobre si las distribuciones normales o de Laplace eran más apropiadas para modelar varios fenómenos astronómicos y físicos. Una simulación aproximadamente comparable para datos de Laplace dio como resultado una SD de medias de alrededor de 1.36 y una SD de medianas ligeramente menor de 1.33.

1voto

Claude Leibovici Puntos 54392

Este es el problema típico de validación y conciliación de datos.

Sea $y_i$ la medida dada por el sensor $i$ y $\sigma_i$ su correspondiente desviación estándar. Entonces, para el caso de $n$ sensores (cada uno proporcionando una medición), necesitas minimizar $$F(Y)= \sum_{i=1}^n\frac {(y_i-Y)^2}{\sigma_i^2}$$ Diferencia y establece $F'(Y)=0$. Resolviendo para $Y$ (el valor más probable de la medición), deberías obtener $$Y=\frac{\sum_{i=1}^n \frac{y_i}{\sigma_i^2} } { \sum_{i=1}^n \frac{1}{\sigma_i^2} } $$

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X