El sistema en el que estamos trabajando es biológico, más específicamente la distribución programada de daño en el ADN de los eventos a través de un cromosoma. Esto puede ser pensado como 1D array (cromosoma), a través de la cual puede ser elegido (a los sitios de daño intencional). Hemos asignado a las posiciones de estos eventos de forma experimental y en un principio la pregunta si o no se ajuste a una distribución al azar, es decir, el daño puede ocurrir en cualquier punto a lo largo del cromosoma con la igualdad de oportunidad y en cualquier de los sitios de daño son independientes uno del otro. Mediante la generación de distribuciones aleatorias en MATLAB (randi), esto resultó no ser el caso.
Mediante el análisis de la inter-punto de distancias (IPDs), tanto de la real y el modelado de datos, los datos se ve que se desvía de una distribución al azar, sólo por debajo de un cierto IPD tamaño, antes de reunirse con la distribución al azar de arriba es decir, hay menos más corto IPDs de lo que cabría esperar por azar en los datos reales.
Ejemplo IPD resultados:
Red = random modelled distribution
Blue = real data
Y-axis = IPD size (log-scale)
X-axis = IPD number (IPDs are just plotted in numerical order)
El IPDs se trazan aquí en un registro eje de las y y simplemente, en orden creciente, como si se tratara de un histograma. Como se puede ver por debajo de un cierto IPD tamaño (eje Y), la línea azul se desvía de la línea roja.
La hipótesis de que estamos probando (que tiene un sonido de base biológica) es que la posición de un evento depende de los ya formados. Específicamente, tan pronto como un sitio que se elija, se invoca a una zona de la represión a su alrededor, haciendo que la región circundante menos probabilidades de ser elegido como el sitio de al lado. De esta forma, los espacios de los eventos y explica la ausencia de menor IPDs. Esta zona se reduce gradualmente en intensidad cuanto más se alejan de un punto elegido - explicar el retorno a la independencia por encima de un cierto IPD distancia.
Pregunta: ¿existe un método matemático mediante el cual se pudieran derivar la forma de esta zona desde el azar y real de los conjuntos de datos solo? Por ejemplo, mediante el cálculo de la fuerza (capacidad de apartarse de la aleatoriedad) en cada punto hasta que los efectos no son visto?
La forma y la escala del triángulo en el diagrama de arriba es la principal cosa de la que estoy tratando de obtener (no es necesariamente un triángulo).
Tenemos un segundo modelo que simula esta hipótesis - y que ofrece resultados prometedores sin embargo, tenemos necesidad de orientación sobre la forma, la escala, etc. de la represión de la zona de lo contrario es bastante abajo a prueba y error y diferentes de windows + parámetros de ajuste.
He visto algo similar hecho antes por binning la IPDs en un histograma, el ajuste de una función de probabilidad gamma y, a continuación, convertir a una función de riesgo, pero no soy un matemático, y no sé si este es el método correcto ni cómo ir sobre ella.
Yo en gran medida el trabajo en MATLAB así que si alguien pudiera proporcionar alguna ayuda en forma de MATLAB, eso sería genial - pero ningún tipo de ayuda sería muy apreciada.
Los datos utilizados en la trama:
Real IPDs:
7126.5
11311.5
12582.25
21499
25429.25
28876.5
29178.5
35545.25
37498.75
37881.5
38152
45464
47372.5
48047.5
52397
55563
57100.75
59372
61640.5
63822.5
66672.25
67010
68969
69071.5
69680.75
70136
70228.25
75124
75487.5
76186.5
80091.5
80279
80727.75
83397.25
84412.25
84481
85453.5
85483.25
88821
88862.25
89089.5
90453.25
92416.25
96658
97369.75
98573.25
104459.5
105307.25
107716.5
113079.5
113357.75
113750.25
113848
114834.25
114871
114919.25
116882
116899.75
117400.75
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091
Modelled IPDs:
6309.250317
7485.019638
8691.132742
9875.024811
11093.9262
12328.9784
13540.43008
14760.67732
16018.67552
17243.509
18560.20364
19830.60355
21235.71334
22592.75188
23931.62058
25240.54551
26572.1846
27899.31413
29311.17773
30765.96211
32251.92515
33713.78512
35191.37822
36695.70116
38301.07903
39893.27382
41474.13555
43128.17872
44764.51525
46449.33501
48116.12259
49799.81561
51567.24913
53351.51996
55228.92877
57039.44196
58826.45323
60615.27354
62437.5259
64364.0891
66308.25836
68317.33777
70389.35974
72571.9451
74659.85927
76782.19429
79186.51912
81427.22249
83761.00059
86187.90023
88672.44356
91239.82722
93885.18499
96423.67933
99062.67598
101676.3844
104409.6901
107253.7768
110233.3544
113384.191
116714.9387
119898.1004
123046.5264
126504.6261
130069.3977
133819.0782
137747.762
141858.6185
146088.6625
150264.6261
154671.6308
159430.2967
164407.1167
169531.1443
174883.6052
180484.1524
186826.807
193794.4646
201090.8222
209380.867
218202.6614
228206.8165
239754.5876
252495.3356
267223.6972
285275.7581
308050.18
335997.8885
393927.4475
431000.091