3 votos

Teoría más aceptada para analizar la tendencia de las series de datos

Tengo la concentración de contaminantes durante un largo periodo y quiero determinar la tendencia. He leído algunas de las preguntas y respuestas de este blog al respecto. Tengo algunas preguntas.

  1. ¿Cuál es la teoría más aceptada para calcular la tendencia que utilizan mayoritariamente los climatólogos? Podría alguien sugerir/proporcionar algún trabajo de investigación.
  2. Mis datos también tienen algunos datos que faltan a veces por días y en algún momento de algún mes debido a un error del instrumento u otra razón. ¿Cómo se tratan los datos que faltan en el análisis de tendencias? Interpolar datos en parámetros como la temperatura no es un gran problema porque la temperatura no muestra grandes fluctuaciones. Pero la concentración de contaminantes muestra una gran fluctuación de un día para otro, por lo que creo que no es una buena idea interpolar la concentración. ¿Cómo podemos tratar los datos que faltan? 3) Si despersonalizo los datos, ¿podemos comprobar la tendencia de las series temporales? Por "a trozos" me refiero a suponer que mis datos muestran un aumento durante 10 años desde el comienzo y que después las concentraciones disminuyen. ¿Cómo puedo hacer frente a esta situación? 4) También tengo que informar de la importancia de la tendencia.

Estoy utilizando MATLAB para tratar y analizar los datos. ¿Podría alguien sugerirme/ayudarme en este sentido?

Le estaré muy agradecido.

Gracias Gracy

1voto

frankov Puntos 72

En primer lugar, me gustaría decir que no tengo ninguna formación en predicción meteorológica. En mi experiencia, los datos que faltan son un gran problema, sobre todo cuando no se dispone de todo un mes o sólo de un día (yo trabajaba con muestras de 1 hora, un día = 24 filas que faltan, un mes = 750 filas que faltan). Cuando se trata de una característica muy importante, por ejemplo, el valor que se está prediciendo, se deben eliminar estas filas para evitar problemas posteriores. Hay muchos métodos para tratar los datos que faltan.

El segundo paso es eliminar las tendencias de los datos. Es un paso crucial.

En tercer lugar, como ya sabrá, algunos datos pueden ser caóticos y presentar una gran varianza. Por ejemplo, las PM10 de una hora pueden variar entre 10 μg/m3 y 150 μg/m3. Así que es buena idea trabajar también con medias móviles, para disminuir la varianza: http://www.sciencedirect.com/science/article/pii/S1352231002004193 - aquí se describe un poco - no puedo encontrar la versión libre de este artículo.

4ª cuestión, si dispone de datos de los últimos 10 años, debería elegir los 3-4 últimos para el aprendizaje y la evaluación. Porque la ciudad ha cambiado mucho durante todo este tiempo. La contaminación de 2004 es muy diferente de la contaminación en 2015.

De acuerdo con su primer punto, he utilizado redes neuronales (MLP, red RBF, SVM, regresiones lineales, árbol de bosque aleatorio). No utilicé modelos estadísticos como ARIMA. Tenía pensado utilizar CRF o SSVM.

Empecé a trabajar con datos en MATLAB, pero me costaba rellenar los valores que faltaban, imprimir gráficos y describir los datos. Así que cambié el entorno a Python, y fue una buena elección. Había utilizado Pandas ( http://pandas.pydata.org/ ) para trabajar con datos que faltan, para trazar datos, para extraer datos para el aprendizaje. Luego empiezo a usar sklearn ( http://scikit-learn.org/stable/ ) para los métodos de redes no neuronales: SVM, árboles, Naive Bayes, LASSO, regresiones lineales. Al final elijo pybrain ( http://pybrain.org/ puedes mirar en keras.io) para aprender redes neuronales: MLP y RBF net. Por último conecto algunos métodos en el aprendizaje de conjunto.

No voy a compartir mi tesis de máster, porque no está escrita en inglés.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X