6 votos

Trabajando con distribuciones normales, ¿qué tan grandes ruido puede antes datos inexactos?

Yo soy la medición de una característica de un dispositivo que tiene una distribución normal ($0$ media y std dev de $\sigma_M$).

Hay, sin embargo, el ruido en el proceso de medición, que también tiene una distribución normal ($0$ media y std dev de $\sigma_N$). Puedo medir el ruido de forma independiente.

Puedo estimar el dispositivo del verdadero carácter (sin ruido) como $\sigma_D = \sqrt{\sigma_M^2 - \sigma_N^2}$. Para ser compatible con una determinada especificación, $\sigma_D$ debe ser menor que $L$.

Si el ruido es pequeño en comparación con el valor medido, tengo un alto nivel de confianza en mis datos. Pero mi confianza disminuye a medida que el ruido se aproxima al valor medido. En el caso extremo, si $\sigma_M = \sigma_N$, mi estimación devuelve $\sigma_D = 0$, lo que indica que yo he llegado al piso de ruido de mi equipo (creo que esa es la interpretación correcta, pero quiero saber si no).

confidence in data, scenarios

Mi pregunta es, qué tan cerca se puede $\sigma_N$ $\sigma_M$ tal que $\sigma_D$ es todavía "exacta"?

No quiero reportar un valor de $\sigma_D$ que contiene demasiados errores. Más bien, me gustaría informar de algunas límite inferior de $\sigma_D$ una vez $\sigma_N$ se convierte en demasiado cerca de $\sigma_M$. Cualquier luz que puede arrojar el para que me ayude a definir ese límite inferior sería muy apreciada.

ACTUALIZACIÓN 1

  • Para aclarar, yo mido $(1)$ el dispositivo con el ruido y, por separado, en un momento posterior, $(2)$ el ruido (sin el dispositivo).
  • La distribución de ruido medidos directamente (sin el dispositivo) se puede suponer que también existe cuando el dispositivo se mide con el ruido, y que es la ÚNICA presencia de ruido cuando el dispositivo se mide con el ruido.

ACTUALIZACIÓN 2

Es la siguiente estadísticamente significativo como una condición en la que $\sigma_D$ es incorrecta: $$ \sigma_M - \sigma_N < \dfrac{1.96}{\sqrt{n}}(\sigma_M + \sigma_N) \;, $$ donde $n$ es el número de muestras utilizadas para el cálculo de la sigmas?

2voto

Nona Urbiz Puntos 1306

La pregunta puede ser reducido a la evaluación de la probabilidad de $\mathbb{P}(\hat{\sigma}_D < L)$ donde $L>0$ es conocido. Es suficiente para calcular la CDF de $\hat{\sigma}_D$. Por desgracia, no aparece de forma cerrada existe.

Parte 1. Llamamos a datos secundarios el ruido sólo medidas. Son una secuencia $\{ y_1, \dots, y_n \}$ tal que $y_i = n_i$ $i=1,\dots,n$ donde $n_i \sim \mathcal{N}(0, \sigma^2_N)$ son yo.yo.d. gauss variables aleatorias (RVs), también conocido como ruido. De estándar de la teoría de la estimación, (ver nota) $$ \hat{\sigma}^2_N = \frac{1}{n} \sum_{i=1}^n y_i^2 $$ es el MLE (Estimador de Máxima Verosimilitud) de $\sigma^2_N$ y sigue un $\chi^2$ distribución $n$ grados de libertad. Más precisamente: $$ n \frac{\hat{\sigma}^2_N}{\sigma^2_N} \sim \chi^2_{n} $$ Deje $z_i$ denotar primaria de datos (señal+ruido). Tenemos que $z_i = x_i + w_i$ $i=1,\dots,n$ , donde: $x_i \sim \mathcal{N}(0, \sigma^2_D)$ representa el dispositivo, $w_i \sim \mathcal{N}(0, \sigma^2_N)$ es el ruido, independiente de la $x_i$$n_i$. De nuevo, $$ \hat{\sigma}^2_M = \frac{1}{n} \sum_{i=1}^n z_i^2 $$ a partir de la cual $$ n \frac{\hat{\sigma}^2_M}{\sigma^2_M} \sim \chi^2_n $$ Nota: no es necesario restar la media de la muestra $\bar{y}$ ya que sabemos que $\mathbb{E}[y_i] = 0$. Si usted utiliza actualmente. $$ \tilde{\sigma}^2_N = \frac{1}{n} \sum_{i=1}^n (y_i - \bar{y})^2 $$ esto no es ML más. Todavía es $\chi^2$ de la distribución, pero con $(n-1)$ grados de libertad. Más precisamente, $(n-1)s^2 / \sigma^2 \sim \chi^2_{n-1}$ donde $s^2$ el imparcial de la varianza de la muestra, que se define como: $s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$. La matemática precisa instrucción que sigue a partir del teorema de Cochran.


Parte 2

. Sabemos que $\rm Var[z_i] = Var[x_i] + Var[w_i]$, por lo que podemos calcular $$ \hat{\sigma}^2_D = \hat{\sigma}^2_M - \hat{\sigma}^2_N $$ Esencialmente, ahora tenemos que calcular la CDF de la diferencia entre dos independientes $\chi^2$ RVs, lo cual no es trivial. Esto se complica por el hecho de que algunos de los coeficientes son necesarios para hacer las cosas bien. Tenemos que usar el siguiente resultado.

Lema. Deje $X,Y$ dos independientes $\chi^2_n$. El PDF de $Z=X-Y$ está dado por $$ f_Z(z) = \frac{1}{\sqrt{\pi} 2^{n/2}} \frac{1}{\Gamma \Big( \frac{n}{2} \Big)} |z|^{(n-1)/2} K_{\frac{n-1}{2}}\Big( |z| \Big) $$ donde $K(\cdot)$ es la función Bessel modificada de segunda clase y $\Gamma(\cdot)$ es la función Gamma. Prueba. Vea aquí.

Denota el PDF de $\hat{\sigma}^2_D$$f_Z(z)$, el CDF está dada por $$ \mathbb{P}(\hat{\sigma}^2_D \leq t) = F_Z(t) = \int_{-\infty}^t f_Z(z) dz $$ Desde $\hat{\sigma}_D = \sqrt{\hat{\sigma}^2_D}$, la solución es $$ \mathbb{P}(\sqrt{\hat{\sigma}^2_D} < L) = \mathbb{P}(\hat{\sigma}^2_D < L^2) = F_Z(L^2) = \int_{-\infty}^{L^2} f_Z(z) dz $$ cual es la probabilidad de que el dispositivo es compatible.


ADDENDUM

. Para responder a la precisión de la pregunta, definir la relación Señal-a-Ruido (SNR) de la siguiente manera $$ SNR = \frac{\sigma^2_D}{\sigma^2_N} $$ que se puede calcular utilizando los valores estimados (uso de grandes valores de $n$, ya que, idealmente, usted desea tener a $n \rightarrow +\infty$). SNR es una medida útil. En primer lugar, $SNR \geq 0$ siempre. En segundo lugar, en el límite de $\sigma^2_N \rightarrow +\infty$ (infinitamente poderoso ruido), tenemos $SNR=0$, mientras que $\sigma^2_D \rightarrow +\infty$ (infinitamente poderosa señal) implica $SNR=+\infty$. En otras palabras, el más grande de la SNR, el mejor.

SNR es una métrica cuantitativa vinculada a la exactitud de las mediciones. A veces, usted verá un umbral basado en el enfoque para definir la "precisión": si $SNR \geq \gamma$ donde $\gamma>0$ es arbitrariamente decidió (por ejemplo,$\gamma = 10^3$), entonces la etiqueta de los resultados como `exacta", inexacta de lo contrario. Pero este enfoque es erróneo, ya que la exactitud es tratada como un valor binario, que es demasiado simplista.

Un mejor enfoque es el de calcular $$ \eta = 1 - \frac{1}{SNR +1} $$ Por qué y cómo funciona esto? Para $SNR=0$ (infinitamente poderoso ruido o señal cero), $\eta=0$. Para $SNR=+\infty$ (cero ruido o infinitamente poderoso de la señal), $\eta=1$. Así que, claramente, $\eta \in [0,1]$, con valores extremos tomarse sólo bajo condiciones de limitación. Si ahora se utiliza $a_{[\%]} = 100\eta$, se puede interpretar $a_{[\%]}$ directamente de la precisión de la misma, expresado en porcentaje. Así, por ejemplo, $\eta=0.9$ implica que el 90% de las medidas exactas, mientras que $\eta=0.1$ implica bastante impreciso medidas. Esto nos da una medida cuantitativa de la precisión de nuestras medidas, que también es sencilla de calcular y intuitivamente atractivo.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X