7 votos

Análisis de patrones temporales

Yo soy el análisis de los datos sobre los eventos que he clasificado en grupos.

Así, por ejemplo, decir que tengo 3000 eventos clasifican en 5 grupos, que nos llame la a a la E.

Voy a tener algo como

    Event  | Group | Time
   --------+-------+-------
       1   |   A   |   0
       2   |   A   |   5
       3   |   C   |   7
       4   |   D   |   16
      ...  |       |
     3000  |   B   |   6000

Ahora, me gustaría ver si hay algún tipo de n-evento de larga secuencia temporal que aparece en varias ocasiones (más de oportunidad).

Así, por ejemplo, uno de 4 eventos de largo patrón puede ser:
Un - 3 segundos - Un - 2 segundos - D - 5 segundos - C

He encontrado este documento que propone algunas método interesante (no estoy trabajando en los trenes de espigas, pero el problema es lo suficientemente similar), pero antes de la aplicación de la que me gustaría a ver si alguien sabía de otros métodos/estadísticas que pueden ser aplicados a este tipo de problemas.

5voto

Judioo Puntos 625

Una prueba funciona parece apropiado, y el citado de la literatura en el fin se desarrolla el estadístico de prueba para varias categorías. Por desgracia, el papel es paywalled pero he aquí un rápido resumen de la prueba estadística (captura de pantalla de la página relevante aquí).

Para cada individuo, grupo, podemos contar;

  • $n_s = \text{Number of successes}$
  • $r_s = \text{Number of success runs}$
  • $s_{s}^{2} = \text{Sample variance of success run lengths}$
  • $c_s = (r^2-1)(r+2)(r+3)/[2r(n-r-1)(n+1)]$
  • $v_s = cn(n - r)/[r(r + 1)]$

A continuación se calcula esto para cada grupo separado, y el estadístico de prueba es la suma de la de cada $c_s \cdot s_{s}^{2}$ y se distribuye como $\chi^{2}$ $\sum{v_i}$ grados de libertad.

Así, supongamos que tenemos una tabla de longitudes de tres diferentes grupos de la siguiente manera;

Data: 221331333121112112212112122

Length Group1  Group2  Group3
-----------------------------
     1   5       4       0 
     2   2       3       1
     3   1       0       1
-----------------------------
    n_s 12      10       5
    r_s  8       7       2
    s_s  0.6     0.3     0.5
    c_s 11.1    14.0     1.3
    v_s  7.4     7.5     3.1 
-----------------------------
x^2 = (0.6*11.1) + (0.3*14) + (0.5*1.3) = 11
DF  = 7.4 + 7.5 + 3.1 = 18

Evaluar el área a la derecha de la estadística de prueba es .9, por lo que en este caso le haría bien no se puede rechazar la hipótesis nula de que la distribución de las pistas están distribuidos al azar. Está bastante cerca de la otra cola, aunque, por lo que el límite es la evidencia de los datos es más dispersa de lo que cabría esperar por azar (como esta es una de esas circunstancias tiene sentido evaluar la cola izquierda de la distribución de la Chi Cuadrado).


O'Brien, Pedro C. Y Pedro J. Dyck. 1985. Una prueba funciona basado en las tiradas. La biometría 41(1):237-244.

He publicado un fragmento de código en la estimación de este en el programa SPSS en este enlace de dropbox. Incluye la componen ejemplo aquí, así como un ejemplo de código de replicar las tablas y estadísticas en el O'Brien & Dyck de papel (en un conjunto de datos que se parece a la de ellos).

3voto

Si entiendo bien, usted está buscando para k-mers, que son los patrones de tamaño k encontrados en las secuencias.

Hay un paquete de R para el análisis de datos de la secuencia de llamada TraMineR que incluye funciones para representar las secuencias, la búsqueda de la varianza de estado duraciones, compute dentro de la secuencia de la entropía, extracto de evento frecuente subsecuencias, etc.

También puede comparar dos secuencias para ver cómo se alinean en el tiempo mediante el uso de Dynamic Time Warping

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X