Tengo dos conjuntos de datos 1-D (A: 300.000 puntos y B: 30.000 puntos) que representan eventos genéticos a lo largo del genoma humano (tamaño: 3.000 millones de "puntos"). Sé que A y B no están distribuidos uniformemente a lo largo del genoma. Y sé que A parece estar más agrupado en puntos calientes que B. ¿Cómo puedo probar que A está más "densamente" distribuido que B?
Editar : Estaba pensando en reportar para cada punto del conjunto de datos la distancia mínima con su vecino más cercano (cada punto tiene dos vecinos, es decir, aguas arriba y aguas abajo). De este modo, es posible comparar conjuntos de datos comparando la distribución de la distancia mínima respectiva (cuanto más baja sea la media, más "densa"). Parece correcto, ¿no?
Editar 07 12 2016 :
Esto es lo que hice. Utilicé el índice de Gini como sigue. Primero tengo que transformar mi lista de posiciones genómicas en algo utilizable para un análisis del índice de Gini (una distribución discreta - cada posición será asignada a un "grupo"). Para asignar cada posición a un grupo, primero estimo la distribución de fondo de las posiciones asignando aleatoriamente X posiciones (donde X=número de posición en A), y calculo el grado de cada posición (grado=número de posición dentro de una ventana definida centrada en la posición de interés; para mi análisis elijo 25.000). Guardo el grado máximo de las posiciones X. Lo hago N=100.000 veces para tener una estimación de la distribución de grados de la posición de fondo. Ahora, con mi conjunto de datos reales, calculo el grado para cada posición en A y calculo un valor p asociado con respecto a la distribución de grados de la posición de fondo calculada antes ( p_i=sum(posDegree_i <= backgroundDegree)/N where i=position i in A)
. Luego asigno las posiciones adyacentes que albergan un valor p <= 0,05 al mismo grupo y la posición con valor p >= 0,05 estará sola en un grupo). Entonces tengo la distribución de posiciones por grupos como:
group number of position
Group_1 10
Group_2 1
Group_3 3
Group_4 23
etc..
Con esta distribución puedo calcular un índice de Gini que indica la densidad relativa del conjunto de datos A (0=ninguna densidad; 1=densidad máxima con un solo grupo que contiene todas las posiciones, es decir, un gran punto caliente). El problema es que tengo que fijar un tamaño de ventana (aquí 25.000) que puede sesgar el análisis.
Para comparar A y B, mi idea era submuestrear Nsub=10.000 veces A al tamaño de B (30.000 puntos) y calcular el índice de gini como se ha explicado anteriormente. Pero ahora no estoy seguro de cómo calcular un valor p final para comparar A y B, ya que tendré un índice de gini para B y 10.000 índices de gini para A (A submuestreado a B 10.000 veces).
¿Cree que este enfoque es correcto?
Gracias