2 votos

La consecuencia del reparto de solapamientos para la distribución de longitudes de varillas colocadas aleatoriamente en una línea

Imagínese que se rellena una línea finita de longitud unitaria, o un círculo con contorno de longitud unitaria (para evitar efectos de borde), con $N$ varillas" unidimensionales de tal manera que sus extremos LHS, en las posiciones $(p_1, ..., p_k, ..., p_N) \in P$ se colocan de acuerdo con una distribución aleatoria uniforme sobre [0, 1]. Aquí, las longitudes de las varillas, $(l_1, ..., l_k, ..., l_N) \in L$ se distribuyen exponencialmente según algún parámetro de tasa $\lambda$ - es decir, la variable aleatoria $l_k$ tiene distribución $l_k$ ~ Exp( $\lambda$ ), dando una función de densidad de probabilidad para la longitud de la varilla de $\lambda e^{\lambda l}$ . Del mismo modo, cabe esperar una distribución exponencial para las distancias entre puntos adyacentes en el conjunto $P$ .

Tenemos las siguientes dos reglas para manejar los solapamientos entre barras:

(1) - Si el "contorno" de una varilla (digamos, "Varilla A") cubre completamente a otra (digamos, "Varilla B"), es decir, cuando (Varilla A-LHS) < (Varilla B-LHS) y (Varilla A-RHS) > (Varilla B-RHS), eliminamos la "Varilla B" de la línea y ya no la consideramos.

(2) - Si sólo hay un solapamiento parcial en los contornos de dos barras, "Barra A" y "Barra B", la longitud de este solapamiento se divide por igual y cada mitad se añade a los contornos de "Barra A" y "Barra B", respectivamente.


Partiendo de nuestra distribución exponencial inicial de longitudes de varillas, $(l_1, ..., l_k, ..., l_N)$ Después de este proceso de superposición y división, ¿cuál es la nueva distribución de probabilidad para la longitud de una varilla? $l_k$ ?


Algunas observaciones:

Como $\lambda \rightarrow \infty$ El número de cañas que quedan en la línea (después de que se hayan solucionado los solapamientos) debería aumentar, y la longitud media de las cañas debería disminuir.

Como $N \rightarrow \infty$ El número de varillas procesadas por solapamiento que quedan en la línea debería aumentar y la longitud media de las varillas debería disminuir. Intuitivamente, yo esperaría que el número de varillas que quedan en la línea después del procesamiento por solapamiento aumentara cada vez más lentamente con $N$ después de alcanzar algún valor de umbral/saturación (presumiblemente cuando la línea está completamente cubierta de varillas).

Como $\lambda \rightarrow -\infty$ En el caso de que la longitud de las varillas sea mayor que la de las varillas, deberían quedar menos varillas en la línea después del procesamiento de solapamiento, y la longitud media de las varillas debería aumentar. A un valor suficientemente grande de $\lambda$ , deberíamos quedarnos con una sola varilla en la línea que tiene el lado más izquierdo/pequeño del LHS. Si además tenemos que $N \rightarrow \infty$ La longitud media de la varilla debe aproximarse a la longitud unitaria de la línea.

Como $N \rightarrow 0$ Debería haber menos varillas y una longitud media de varilla cada vez mayor.


Inspirado por la respuesta de Joseph O'Rourke, y algunos resultados de simulación míos, si uno arregla $\lambda$ y deja que $N \rightarrow \infty$ parece que se converge a una distribución de longitudes de varilla centrada en un valor medio entre $\frac{L}{2}$ y $L$ , donde $L$ es la longitud media original de las varillas antes del tratamiento de solapamiento. Sin embargo, esta distribución parece ser gaussiana, no uniforme.

¿Convertimos realmente a una distribución gaussiana? ¿Cómo cambia la distribución y su varianza al aumentar $N$ ?

1voto

Peter Puntos 1681

Esto no es una respuesta, sólo una simplificación y una conjetura sobre esa simplificación. En primer lugar, sólo hay que considerar $N$ lo suficientemente grande como para que el intervalo/circunferencia quede totalmente cubierto (el "eventualmente" de mi comentario). En segundo lugar, en lugar de su distribución exponencial, fijar todas las varillas a la misma (pequeña) longitud $L$ , quizás $L < \frac{1}{2}$ es suficiente. Mantenga su suposición de que el punto final izquierdo de cada varilla se elige uniformemente en $[0,1]$ . Entonces conjeturo que la distribución límite es uniforme con longitud media de varilla $L/2$ . Sólo tengo argumentos heurísticos para ello (las varillas más cortas son absorbidas por las recién añadidas, las barras más largas existentes son cortadas por los extremos). Tal vez podría modificar su simulación a esta para ver si esto es empíricamente cierto?

Si esta conjetura es válida, tal vez lo sea también para una distribución exponencial, con $L$ ahora la longitud media de esa distribución.

Anexo : He comprobado esto yo mismo, y efectivamente parece que se mantiene empíricamente. Aquí están los resultados de una simulación añadiendo 10 millones de varillas de longitud $L=\frac{1}{10}$ a $[0,1]$ . Sólo las longitudes de varillas dentro de $[L,1-L]$ se promedian en el gráfico (para excluir los efectos de los bordes).


          Rods

1voto

jrudolph Puntos 3726

Yo tampoco tengo una respuesta, salvo para señalar que esta configuración es muy similar al núcleo de mi disertación. Esta distribución estocástica de intervalos de longitud aleatoria modela el problema del mapeo genómico; si se han volado muchas copias de algún material genético en fragmentos, ¿cómo se caracterizan las fragmentaciones que pueden reconstruirse de forma única (hasta la inversión completa) - frente a las fragmentaciones que son ambiguas (pueden reconstruirse de forma consistente de múltiples maneras)?

Luego está la cuestión de que, de acuerdo, has tomado muestras de fragmentos de ADN con una distribución que crees que te da suficientes probabilidades de ser inequívoca, así que, ¿cómo puedes averiguar realmente cómo ordenar los fragmentos en un mapa? Si además se cortan los fragmentos en todas las apariciones de algunas secuencias cortas de ADN (sitios de restricción para las enzimas de digestión), las áreas que se superponen darán lugar a distribuciones comunes de las longitudes de los subfragmentos, y se puede empezar a ver quién se superpone a quién, y empezar a reconstruir todo el asunto.

Si te gusta la posdata, puedes encontrar dos documentos en este enlace (buscar por Settergren), o los he pdf'd aquí y allí . O bien, puede descargar el tesis completa .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X