Processing math: 100%

4 votos

¿Cómo comparar dos conjuntos de datos en términos de densidad?

Tengo dos conjuntos de datos 1-D (A: 300.000 puntos y B: 30.000 puntos) que representan eventos genéticos a lo largo del genoma humano (tamaño: 3.000 millones de "puntos"). Sé que A y B no están distribuidos uniformemente a lo largo del genoma. Y sé que A parece estar más agrupado en puntos calientes que B. ¿Cómo puedo probar que A está más "densamente" distribuido que B?


Editar : Estaba pensando en reportar para cada punto del conjunto de datos la distancia mínima con su vecino más cercano (cada punto tiene dos vecinos, es decir, aguas arriba y aguas abajo). De este modo, es posible comparar conjuntos de datos comparando la distribución de la distancia mínima respectiva (cuanto más baja sea la media, más "densa"). Parece correcto, ¿no?


Editar 07 12 2016 :

Esto es lo que hice. Utilicé el índice de Gini como sigue. Primero tengo que transformar mi lista de posiciones genómicas en algo utilizable para un análisis del índice de Gini (una distribución discreta - cada posición será asignada a un "grupo"). Para asignar cada posición a un grupo, primero estimo la distribución de fondo de las posiciones asignando aleatoriamente X posiciones (donde X=número de posición en A), y calculo el grado de cada posición (grado=número de posición dentro de una ventana definida centrada en la posición de interés; para mi análisis elijo 25.000). Guardo el grado máximo de las posiciones X. Lo hago N=100.000 veces para tener una estimación de la distribución de grados de la posición de fondo. Ahora, con mi conjunto de datos reales, calculo el grado para cada posición en A y calculo un valor p asociado con respecto a la distribución de grados de la posición de fondo calculada antes ( p_i=sum(posDegree_i <= backgroundDegree)/N where i=position i in A) . Luego asigno las posiciones adyacentes que albergan un valor p <= 0,05 al mismo grupo y la posición con valor p >= 0,05 estará sola en un grupo). Entonces tengo la distribución de posiciones por grupos como:

    group      number of position
    Group_1                    10
    Group_2                     1
    Group_3                     3
    Group_4                    23
    etc..

Con esta distribución puedo calcular un índice de Gini que indica la densidad relativa del conjunto de datos A (0=ninguna densidad; 1=densidad máxima con un solo grupo que contiene todas las posiciones, es decir, un gran punto caliente). El problema es que tengo que fijar un tamaño de ventana (aquí 25.000) que puede sesgar el análisis.

Para comparar A y B, mi idea era submuestrear Nsub=10.000 veces A al tamaño de B (30.000 puntos) y calcular el índice de gini como se ha explicado anteriormente. Pero ahora no estoy seguro de cómo calcular un valor p final para comparar A y B, ya que tendré un índice de gini para B y 10.000 índices de gini para A (A submuestreado a B 10.000 veces).

¿Cree que este enfoque es correcto?

Gracias

1voto

Laurent Duval Puntos 229

Una posibilidad consiste en utilizar índices de dispersión adecuados. Dichos índices deben codificar algunos conocimientos previos o suposiciones que se puedan tener sobre los conjuntos de datos o la información que se quiere revelar. El índice de Gini es una medida estándar de la desigualdad entre las diferentes distribuciones de ingresos, y también puede utilizarse con otros datos.

El papel Comparación de medidas de dispersión N. Hurley & S. Rickard, 2009, discute primero seis propiedades o axiomas que una medida de sparsity podría satisfacer, y prueba algunas medidas conocidas contra ellas. El resumen es:

Se ha demostrado que la dispersión de las representaciones de las señales es una concepto clave de importancia fundamental en campos como la separación ciega de fuentes, la compresión, el muestreo y el análisis de señales. la separación ciega de fuentes, la compresión, el muestreo y el análisis de señales. El objetivo de este comparar varias medidas de dispersión comúnmente utilizadas, basadas en atributos intuitivos. atributos intuitivos. Intuitivamente, una representación dispersa es aquella en la que un pequeño número de coeficientes contiene una gran proporción de la energía. energía. En este trabajo se analizan seis propiedades: (Robin Hood, Escala, Marea creciente, Clonación, Bill Gates y Bebés), cada una de las cuales que debe tener una medida de dispersión. Las principales aportaciones de este trabajo son las pruebas y la tabla de resumen asociada que clasifican medidas de escasez comúnmente usadas en base a si satisfacen o no estas seis proposiciones. Sólo dos de estas medidas cumplen las seis: la pq -medios con p<1 , q>1 y el índice de Gini.

Es posible que sus datos requieran algún tipo de preprocesamiento o transformación antes de poder aplicar con éxito los índices de dispersión.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X