Tengo dos variables en las que cada observación representa recuentos en algún punto de un espacio discreto 1D (a lo largo de una secuencia de ARN). El espacio es finito, y los recuentos están muy inflados por el cero en comparación con un modelo de Poisson, y probablemente también están sobredispersos.
Asumo que cada variable es un estimador ruidoso de alguna función subyacente en el espacio (la afinidad de algún factor proteico por esa parte de la secuencia de ARN). Asumo que el valor de estas funciones en posiciones adyacentes en el espacio no son independientes (es decir, la afinidad de las proteínas son para las regiones más grandes que una sola base).
Quiero saber si una función subyacente es predictiva de la otra, pero sólo tengo las estimaciones muy ruidosas de ellas.
Por ejemplo: Digamos que tengo los siguientes datos:
var1: 0 1 0 5 1 5 0 1 0 1
var2: 1 1 0 1 5 0 5 0 0 1
position: 0 1 2 3 4 5 6 7 8 9
Ambos conjuntos de datos tienen claramente valores más altos en el centro del espacio que en los extremos, pero y la correlación entre ellos sería muy baja debido a la escasez de datos.
¿Alguien tiene alguna idea de cómo solucionar esto?
EDITAR:
A riesgo de complicar las cosas, voy a intentar formalizar un poco la pregunta para que quede más claro.
Una secuencia de ARN es una cadena de $N$ bases. Cada base $n$ tiene una afinidad $\lambda_{X,n}$ para la proteína A, y la afinidad $\lambda_{Y,n}$ para la proteína B. Deseo saber si $\lambda_{X,n}$ predice $\lambda_{Y,n}$ .
$\lambda_{X,n}$ y $\lambda_{X,n+1}$ son positivamente dependientes, es decir $\lambda_{X,n}$ es alta, espero que $\lambda_{X,n+1}$ para ser alta. Espero que la afinidad por la mayoría de las bases sea 0.
Tengo mediciones de las afinidades en forma de recuentos del número de veces que cada proteína ha interactuado con cada base. Estos recuentos son variables aleatorias $X$ y $Y$ tal que
$$ X_n \sim ZIP(\lambda_{X,n}, \pi_X) $$$$ Y_n \Nsim ZIP(\lambda_{Y,n}, \pi_Y) $$
donde $\pi_X$ , $\pi_Y$ representan el nivel de inflación cero, que es alto, de manera que una correlación estándar, como la de Spearman, sería probablemente baja o 0.