12 votos

¿Qué estadísticas se conservan bajo agregación?

Si tenemos un largo, de alta resolución de la serie de tiempo, con un montón de ruido, que a menudo tiene sentido agregar los datos a una resolución más baja (por ejemplo, diariamente a valores mensuales) para obtener una mejor comprensión de lo que está pasando, de manera efectiva la eliminación de algunos de los ruidos.

Yo he visto al menos uno de los papeles que, a continuación, aplica algunas estadísticas a los datos agregados, incluyendo un $r^2$ para una regresión lineal en una variable independiente. Es que válida? Yo habría pensado que el promedio de proceso de modificar el resultado, un poco justo, debido a la reducción de ruido.

En general, son algunas estadísticas capaz de ser aplicado a los agregados de datos de series de tiempo, y otros que no? Si es así, ¿cuáles? Que son combinaciones lineales, tal vez?

6voto

cbeleites Puntos 12461

Creo que la pregunta en el título es demasiado amplia para ser contestadas en una manera útil, tanto más cuanto que probablemente dependen tanto de la agregación de método y de la estadística en cuestión.

  • Esto incluso se aplica a la "media": ¿intenta conservar la forma y la intensidad de la señal (por ejemplo, Savitzky-Golay, filtros), o tratar de preservar el área bajo la señal (por ejemplo, loess)?

  • Relacionadas con el ruido de las estadísticas, obviamente, son afectados: que es, generalmente, el propósito de la agregación.

Yo he visto al menos uno de los papeles que, a continuación, aplica un poco de estadística para los datos agregados [...] Es que válida? Yo habría pensado que el promedio de proceso de modificar el resultado, un poco justo, debido a la reducción de ruido.

Esta modificación es más probable que el propósito de la agregación.

En general, se puede hacer un montón de cosas a sus datos, pero usted necesita

  • dicen que lo que están haciendo (y de preferencia también por qué lo hace)
  • mostrar la calidad del modelo resultante (prueba con datos independientes)

Lo que es válido para la agregación también dependerá de su aplicación.
E. g.: Estoy trabajando con datos espectroscópicos. Es muy común el agregado de una sola espectros en el promedio de los espectros: el proceso de medición medios de ciertos límites, la calidad de los espectros puedo obtener "en una sola toma". Sin embargo, para muchas aplicaciones es perfectamente válido para especificar un procedimiento de adquisición que dice que siempre se $n$ repetidas mediciones deben ser tomadas y el promedio. Por otro lado, si la aplicación es en tiempo real/en línea o en la línea analítica , tales como la FIA (análisis por inyección en flujo) esto implica restricciones sobre los posibles esquemas de agregación.

5voto

Marc-Andre R. Puntos 789

En una regresión de ajuste se puede probar, si la simple agregación es la elección correcta. Supongamos que usted tiene un plan de datos mensual $Y_t$ y datos diarios $X_\tau$ (con el fijo $m$ días en un mes). Supongamos que usted está interesado en una regresión:

$$Y_t=\alpha+\beta \bar X_t +u_t, (1)$$

donde $$\bar X_t=\frac{1}{m}\sum_{h=0}^{m-1}X_{tm-h}.$$

Aquí se supone que para cada mes $t$ el diario observaciones se $X_{30(t-1)+1},...,X_{30t}$. En este caso asumimos que cada día tiene el mismo peso, lo que claramente es una restricción. Así, podemos asumir que el modelo más general se tiene:

$$Y_t=\alpha+\beta \bar X_{t}^{(w)} +u_t,(2)$$

con

$$X_t^{(w)}=\sum_{h=1}^{m-1}w_hX_{tm-h}.$$

Hay un montón de artículos que exploran diferentes posibilidades de $w_h$. Generalmente se asume que el $w_h=g(h,\alpha)$, para alguna función $g$ que depende de los parámetros de $\alpha$. Este tipo de modelo de regresión es llamado MIDAS (Mezcla de Muestreo de Datos) de regresión.

Modelo (2) se inserta el modelo (1) por lo que es posible poner a prueba la hipótesis de que la $w_h=\frac{1}{m}$. Una de esas pruebas que se propone en este artículo (yo soy uno de los autores, lo siento por el enchufe descarado, también escribí un paquete de R midasr para la estimación y las pruebas de MIDAS regresiones donde esta prueba es implementado).

En un no-regresión configuración hay resultados que muestran que la agregación puede cambiar las propiedades de la serie de tiempo. Por ejemplo, si usted agregada AR(1) los procesos que la memoria a corto plazo (la correlación entre dos observaciones de la serie de tiempo rápidamente se apaga cuando la distancia entre ellos es mayor), usted puede obtener un proceso con la memoria a largo plazo.

Así que para resumir la respuesta es que la validez de la aplicación de la estadística en los datos agregados es un estadístico de la pregunta. Dependiendo del modelo se puede construir una hipótesis de si se trata de una aplicación válida o no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X