Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

4 votos

Eliminar datos periféricos con una tendencia diferente

Actualmente tengo muchos conjuntos de datos que se muestran más o menos la tendencia en la imagen, que puede ser debido a alteraciones de la fuente de datos. La serie "divide" en dos tendencias diferentes, con uno crece de manera exponencial y los otros dispersos y creciendo a un ritmo mucho más lento. Ya que sólo la primera tendencia es deseado, aquellos que pertenecen a la última tendencia que debe ser eliminado. Estoy buscando un método que puede ser utilizado para eliminar los puntos de datos que no está creciendo como por la tendencia.

Los datos son de la serie de tiempo de Pares de valores. El siguiente gráfico muestra una de las series, con el eje horizontal, siendo el eje del tiempo, y el eje vertical es el valor registrado en ese momento.

Datos De Ejemplo:

    06:35:00    342.0
    06:35:44    332.0
    06:35:47    337.0
    06:40:53    387.0
    06:45:07    383.0
    06:45:10    369.0
    06:46:38    395.0
    06:51:44    384.0
    06:51:45    383.0
    06:52:57    381.0
    06:53:55    384.0
    06:57:38    384.0

Tengo aunque fuera segmentando los datos en intervalos pequeños, el conjunto de ellos por k-means en dos grupos, a continuación, comparar la media. Pero estoy en busca de mejores métodos que pueden tener menos efectos para la primera sección de los datos.

Data Trend

-1voto

Owen Fraser-Green Puntos 642

Puesto que usted tiene intervalos desiguales entre las lecturas de series de tiempo métodos no son aplicables. PERO me gustaría considerar el uso de un medio de lectura de un intervalo fijo de tiempo dicen intervalos de 60 segundos y construir/identificar un modelo útil. De esta manera usted puede utilizar los tiempos de la serie de métodos de intervención en la detección de clasificar los efectos de memoria , tendencias , interceptar los cambios , legumbres, etc con el fin de crear una ecuación que es robusto a las anomalías. A veces, cuando se enfrentan a un posible problema insoluble ( no sólo de los efectos temporales pero exógenos desconocido causal serie de efectos ) tienes que ser innovador . Puesto que las series de tiempo y si tengo tiempo disponible voy a "mirar" con mi microscopio.

Respuesta a @whuber correctamente lo que refleja que el promedio era de una suma ponderada de dos distribuciones con el fin de inyectar un efecto que debe ser identificado. El temporal porción/efecto puede ser crítico para la evaluación/detección de la contradicción presente en la próxima vez cubo y debe ser abordado en primer lugar , en mi opinión. La estadística es la práctica de la identificación de la regularidad para el expreso propósito de identificar/inauguración de la irregularidad, si los hubiere. Como dijo Bacon (y parafraseo ) "las desviaciones de la naturaleza ayuda a la comprensión de las verdaderas leyes de la naturaleza "

Lo que yo tenía en mente es que la obtención de promedios para un "cubo de tiempo" permitiría a la siguiente. Supongamos que tenemos 100 tiempo baldes y que desconoce la actividad inusual ocurrió en períodos 61,62 y 63 . Ahora si usamos 60 valores para predecir la 61ª una anomalía se detecta incluso aunque el valor enemigo cubo 61 fue el promedio del bien y del irregular observaciones. Ahora sabemos que el período de 61 debe ser puesto bajo un microscopio y evaluados cuidadosamente. Las lecturas reales para el período de 61 puede ser comparado con la predicción para el periodo de 61 a la dirección de homogeneidad y por lo tanto podemos aislar la razonable a partir de la sinrazón. Si nos encontramos con las lecturas reales de ser homogénea, se ha detectado un cierto tiempo relacionados con la anomalía Y no la presencia de dos distribuciones independientes.

Si el cubo de valor para 61 no es identificado como un pulso dado los primeros 60, pasamos a construir/identificar un modelo útil el uso de 61 los valores de a, quizás, identificar la 62ª valor como un valor atípico/pulso refleja la "posible" heterogéneo de valores utilizados para la construcción de la 62ª valor de 100.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X