Me gustaría un consejo sobre un método de análisis que estoy utilizando, para saber si no es estadísticamente sonido.
He medido en dos puntos con los procesos de $T^1 = t^1_1, t^1_2, ..., t^1_n$ $T^2 = t^2_1, t^2_2, ..., t^2_m$ y quiero determinar si los eventos en $T^1$ son de alguna manera correlacionada a los eventos en $T^2$.
Uno de los métodos que he encontrado en la literatura es el de construir una correlación cruzada histograma: para cada una de las $t^1_n$ encontramos el retraso a todos los eventos de $T^2$ que caen en una determinada ventana de tiempo (antes y después de la $t^1_n$) y, a continuación, se construye un histograma de todos estos retrasos.
Si los dos procesos no están correlacionadas yo esperaría un plano histograma, como la probabilidad de tener un evento en $T^2$ después (o antes) de un evento en $T^1$ es igual en todos los retrasos. Por otro lado, si hay un pico en el histograma, esto sugiere que el punto dos de proceso son de alguna manera influyen el uno al otro (o, al menos, tener alguna entrada común).
Ahora, este lugar es bonito y bueno, pero ¿cómo puedo determinar si los histogramas tienen un pico (tengo que decir que para mi en particular conjunto de datos que están claramente plana, pero aún así sería bueno tener una forma estadística de confirmar que)?
Así que, aquí lo que yo he hecho: he repetido el proceso de generar el histograma para varios (1000) tiempos de mantenimiento de la $T^1$ como es y el uso de una "baraja" de la versión de $T^2$. Para mezclar $T^2$ I calcular los intervalos entre todos los eventos, shuffle y los suma para reconstituir un nuevo punto del proceso. En R I simplemente hacerlo con:
times2.swp <- cumsum(sample(diff(times2)))
Así, termino con 1000 nuevos histograma, que me muestran la densidad de eventos en $T^{2*}$ en comparación con $T^1$.
Para cada bin de estos histograma (que son todos desechado en la misma forma) para calcular la densidad del 95% del histograma. En otras palabras, lo que estoy diciendo, por ejemplo: en el tiempo de retardo de 5 ms, en el 95% de la baraja punto de los procesos existe una probabilidad de x de encontrar un evento en $T^{2*}$ después de un evento en $T^1$.
Me gustaría tomar esta el 95% de los valor de los retardos de tiempo y lo utilizo como un "límite de confianza" (probablemente este no es el término correcto), de modo que cualquier cosa que pasa por encima de este límite en el original histograma puede ser considerado un "pico verdadero".
Pregunta 1: este método es estadísticamente correcto? Si no ¿cómo podría hacer frente a este problema?
Pregunta 2: otra cosa que quiero ver es si hay un "no" tipo de correlación de mis datos. Por ejemplo, no se puede ser similar a los cambios en la tasa de eventos en el punto dos procesos (tenga en cuenta que se puede tener muy diferentes de las tarifas), pero no estoy seguro de cómo hacerlo. He pensado en la creación de un "sobre" de cada punto del proceso el uso de algún tipo de suavizado kernel y luego la realización de una cruz de análisis de la correlación de los dos sobres. Podría usted sugerir cualquier otro tipo de análisis?
Gracias y perdón por esta pregunta larga.