2 votos

Relación entre dos recuentos de cero que varían en el espacio

Tengo dos variables en las que cada observación representa recuentos en algún punto de un espacio discreto 1D (a lo largo de una secuencia de ARN). El espacio es finito, y los recuentos están muy inflados por el cero en comparación con un modelo de Poisson, y probablemente también están sobredispersos.

Asumo que cada variable es un estimador ruidoso de alguna función subyacente en el espacio (la afinidad de algún factor proteico por esa parte de la secuencia de ARN). Asumo que el valor de estas funciones en posiciones adyacentes en el espacio no son independientes (es decir, la afinidad de las proteínas son para las regiones más grandes que una sola base).

Quiero saber si una función subyacente es predictiva de la otra, pero sólo tengo las estimaciones muy ruidosas de ellas.

Por ejemplo: Digamos que tengo los siguientes datos:

var1:     0 1 0 5 1 5 0 1 0 1
var2:     1 1 0 1 5 0 5 0 0 1
position: 0 1 2 3 4 5 6 7 8 9

Ambos conjuntos de datos tienen claramente valores más altos en el centro del espacio que en los extremos, pero y la correlación entre ellos sería muy baja debido a la escasez de datos.

¿Alguien tiene alguna idea de cómo solucionar esto?

EDITAR:

A riesgo de complicar las cosas, voy a intentar formalizar un poco la pregunta para que quede más claro.

Una secuencia de ARN es una cadena de $N$ bases. Cada base $n$ tiene una afinidad $\lambda_{X,n}$ para la proteína A, y la afinidad $\lambda_{Y,n}$ para la proteína B. Deseo saber si $\lambda_{X,n}$ predice $\lambda_{Y,n}$ .

$\lambda_{X,n}$ y $\lambda_{X,n+1}$ son positivamente dependientes, es decir $\lambda_{X,n}$ es alta, espero que $\lambda_{X,n+1}$ para ser alta. Espero que la afinidad por la mayoría de las bases sea 0.

Tengo mediciones de las afinidades en forma de recuentos del número de veces que cada proteína ha interactuado con cada base. Estos recuentos son variables aleatorias $X$ y $Y$ tal que

$$ X_n \sim ZIP(\lambda_{X,n}, \pi_X) $$$$ Y_n \Nsim ZIP(\lambda_{Y,n}, \pi_Y) $$

donde $\pi_X$ , $\pi_Y$ representan el nivel de inflación cero, que es alto, de manera que una correlación estándar, como la de Spearman, sería probablemente baja o 0.

2voto

Nulled Puntos 101

En cuanto a las estructuras de dependencia por pares, las correlaciones lineales o monótonas estándar no son apropiadas, pero los recientes desarrollos en métricas de dependencia no lineales y complejas pueden ayudar. El departamento de Estadística de Columbia pasó el año académico 2013-2014 centrado en el desarrollo de una comprensión más profunda de las estructuras de dependencia y lo concluyó con un taller y una conferencia de tres días que reunió a muchos de los principales colaboradores en este campo:

http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may-2

Entre estos colaboradores se encontraban los hermanos Reshef, ahora famosos por un Ciencia documento "Detección de asociaciones novedosas en grandes conjuntos de datos"

http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf

que ha sido ampliamente discutido (ver AndrewGelman.com para una buena visión general de este debate, publicado simultáneamente con el evento de Columbia:

http://andrewgelman.com/2014/03/14/maximal-information-coefficient ).

En su presentación, los Reshef abordaron todas estas críticas, además de presentar un algoritmo MIC mucho más eficiente.

También asistieron muchos otros destacados estadísticos, como Gabor Szekely, que ahora trabaja en la NSF en DC. Szekely desarrolló sus correlaciones de distancia y de distancia parcial. Deep Mukhopadhay, de la Universidad de Temple, presentó su Algoritmo Estadístico Unificado, un marco para los algoritmos unificados de la ciencia de datos, basado en el trabajo realizado con Eugene Franzen.

http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/

Uno de estos enfoques debería ayudarle a dilucidar las relaciones. El secuenciación del ARN representa un sutil giro a esto. El análisis secuencial es otro tema que ha recibido una atención significativa en los últimos años desde que Google comenzó a utilizar pruebas secuenciales de cociente de probabilidades (SPRT) como una forma de economizar la información necesaria para la A/B pruebas de tipo. El libro de 2014 de Alexander Tartakovsky Análisis secuencial es probablemente el mejor tratamiento del campo. Además, Columbia Statistics (de nuevo) celebró un taller sobre este tema en junio de 2015. Si hace clic en la pestaña "Programa y ponentes", podrá acceder a los enlaces de los resúmenes del programa, las presentaciones y las ponencias.

https://sites.google.com/site/iwsm2015/committees-and-sponsers

Otro enfoque consiste en la regresión tensorial para tablas de contingencia masivas y multidireccionales. David Dunson, de Duke, se encuentra entre los que desarrollan métodos para ello. Véase su artículo Regresión tensorial bayesiana en su página web para una introducción y revisión de este campo:

https://stat.duke.edu/~dunson/

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X