8 votos

Cómo predecir la cantidad de datos a recoger

La misma pregunta en CrossValidated

Disculpa si estoy siendo un poco vago en lo que sigue, me han preguntado a mantener ciertos aspectos del experimento confidencial por el momento.

Una experiencia análoga sería como tratar de " ver " el reflujo y el flujo de la marea (0.5 días) por la localización de un detector de fotones en el fondo del océano (aunque por supuesto esto no iba a funcionar y que es tonto, pero el principio es al menos muy similar.) Espero que se aclara un poco, quiero saber si no.

Actualmente estoy en la fase de planificación de este experimento que estoy con la esperanza de detectar un 0.155% de la señal de variación (magnitud relativa) dentro de un razonable período de tiempo (menos de 6 meses lo ideal.) He calculado la tasa de (utilizable) de datos será de alrededor de 68 eventos por día, aunque cabe destacar que esto es una variable aleatoria. Ahora estoy tratando de averiguar - ¿cuántos días necesito para ejecutar el detector para ver la variación con un nivel de confianza de 3σ?

Algunos otros detalles que pueden (o no pueden) ser relevantes incluyen: la variación en la señal que se espera sinusoidal con un período de 0,5 días. Por esta razón he reducido mis útiles caso de la tasa de 34 (es decir, la mitad) como claramente que no hay variación a ver cuando la señal sinusoidal se encuentra en o cerca del valor de la media.

He estado googleando un método para predecir el tamaño de un conjunto de datos necesarios para ver una pequeña señal de variación, pero ha llegado con nada. Yo estaría muy agradecido por cualquier sugerencias / consejos que nadie podía ofrecer.

6voto

Matt Solnit Puntos 683

No creo que haya alguna manera de que usted va a hacer esto en seis meses.

Te voy a dar un cálculo a continuación, pero primero un orden de magnitud de la estimación. Si has detectado un total de $N_{\rm events}$ eventos, la medición de una modulación tendrá un error de orden de $N_{\rm events}^{-1/2}$ -- -- siempre pasa con estas cosas! -- por lo que el número de eventos que se requiera se va a ir como $1/f^2$ donde $f$ es el nivel de modulación que estás buscando. En su caso, $f=0.00155$, que corresponde a cerca de 400.000 eventos, que tardará décadas en el caso de la tasa.

Ahora para los detalles.

Deje $N_{\rm events}$ el número total de eventos en el conjunto de datos. Supongamos que usted bin sus datos en $N$ contenedores por hora del día. Estás asumiendo que la señal es de la forma $$ s_j=a+B\cos(t_j), $$ donde $t_j$ es la hora del día correspondiente a la $j$th bin, y el momento del día en que se mide desde el momento en que la señal está en su máximo. (Si usted no sabe cuando lo que es, y está planeando ajuste para, a continuación, que va a cambiar las cosas.) Aquí $A$ es el promedio del número de rejillas de ventilación, por lo que $$ A=N_{\rm eventos}/N, $$ y $$ B=fA={fN_{\rm eventos}\over N}, $$ donde $f=0.00155$ es la modulación.

Suponiendo, además, que los datos se distribuyen a través de todos los momentos del día, los errores en $s_j$ todos serán aproximadamente iguales (porque $f$ es pequeña). En este caso, el mejor estimador de $B$ es $$ \hat B={2\sobre N}\sum_j s_j\cos(t_j). $$ Queremos encontrar la varianza $\sigma_B^2$ de este estimador. El individuo $s_j$ son independientes y tienen casi igualdad de varianzas $\sigma^2$, así $$ \sigma_B^2={4\sigma^2\más de N^2}\sum_j\cos^2(t_j). $$ Suponiendo que $N$ es lo suficientemente grande que la suma puede ser aproximada por una integral, la suma sale a $N/2$, por lo que $$ \sigma_B^2={2\sobre N}\sigma^2. $$ De Poisson distribuido eventos, la varianza es igual al valor esperado: $\sigma^2=A=N_{\rm events}/N$. Por lo tanto, $$ \sigma_B^2={2N_{\rm eventos}\over N^2}. $$ Las fracciones de la incertidumbre es $$ {\sigma_B\sobre B}={\sqrt{2N_{\rm eventos}}\over N}{N\sobre fN_{\rm eventos}}=\sqrt{2\sobre f^2N_{\rm eventos}}. $$ Para un 3-sigma detección, queremos que esto sea igual a 1/3, por lo que $$ N_{\rm eventos}={18\sobre f^2}=2.5\times 10^6. $$ (Mi estimación inicial fue por un factor de 18 años - $3^2$ porque de los 3 sigma, y 2 por el punto anotó acerca de los datos de cerca de los ceros de la modulación no ayuda.) En 68 de los eventos por día, esto funciona a alrededor de 300 años. Lo siento.

2voto

eddiegroves Puntos 118

Parte posterior de la envolvente de cálculo. (Estoy apurado, esperamos que tengo este derecho).

Probabilidad preguntas como esta se hace mejor uso de las probabilidades, así que primero vamos a convertir su estimación de la probabilidad $p$:
Su señal de variación es 0.00155 así:
$$1-2p = 0.00155$$ Por lo $p = 0.499225$$1-p = 0.500775$. La desviación estándar es
$$\sigma = \sqrt{p(1-p)/N} \approx \sqrt{1/(2N)}.$$

Desea que la desviación estándar de 1/3 de la diferencia entre el 0,5 y el $p$, por lo que podemos resolver para N:
$$(0.500775-0.5)/3 = \sqrt{1/(2N)}$$
para obtener $N= 7.5\times 10^6$.

En 68 de eventos por día (en realidad será menor debido a la onda sinusoidal), esto equivale a 21 mil días.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X