Tengo una simple serie de tiempo con 5-10 puntos de datos al conjunto de datos a intervalos regulares. Me pregunto ¿cuál es la mejor manera para determinar si dos conjuntos de datos son diferentes. Debería tratar de las pruebas t de cada punto de datos, o buscar en el área bajo las curvas o es que hay algún tipo de modelo multivariado que funcionaría mejor?
Respuestas
¿Demasiados anuncios?Usted tendrá que especificar exactamente a qué te refieres por "diferentes". Usted también tendrá que especificar en qué supuestos usted está dispuesto a hacer acerca de la correlación serial de la estructura dentro de cada serie de tiempo.
Con la prueba t, que compara la media de cada grupo y usted está asumiendo que los grupos están formados de observaciones independientes con varianzas iguales (el último es a veces relajado). Cuando el tiempo de prueba de la serie, el supuesto de independencia no suele ser razonable, pero entonces usted necesita reemplazar con una determinada correlación estructura-por ejemplo, se podría suponer que la serie de tiempo de seguir AR(1) de los procesos con la igualdad de autocorrelación. En consecuencia, incluso la comparación de medias de dos o más series de tiempo es considerablemente más difícil que con datos independientes.
Me gustaría cuidadosamente especificar en qué supuestos que estaba dispuesto a hacer sobre cada una de las series de tiempo, y lo que yo estaba deseando que comparar, y luego usar un bootstrap paramétrico (basada en la supuesta modelo) para llevar a cabo la prueba.
Tal vez anova de medidas repetidas es lo que quieres. Permite comparar los sujetos (entre factores de tema), teniendo la correlación de la estructura de la "serie de tiempo" por materia (intra sujeto factor). Es fácil, pero con fecha de método y que puede ser encontrado en el contexto de "general de modelos lineales", necesita de algunas características adicionales (por ejemplo, esfericidad). Otra forma podría ser modelos lineales mixtos que permiten una mayor general de las correlaciones de las estructuras (incluso AR(1) como Rob sugerido) y desequilibrado de datos.