3 votos

Probabilidad de combinaciones de cuentas en collares cortados (problema de física de espectrometría de masas)

Tengo un problema matemático relacionado con la espectrometría de masas de péptidos que no soy capaz de resolver por mí mismo. Espero que a algunos de vosotros os resulte un reto interesante. Lo he expresado a continuación en términos de cuentas de un collar para que, con suerte, no necesitéis entender la tecnología para resolver el problema.

Tienes bolsas que contienen un número casi infinito (para nuestros propósitos) de cuerdas con un número igual de cuentas; llamémoslas collares. Hay dos tipos de cuentas: blancas y negras. Hay una cierta abundancia de cuentas blancas y negras, respectivamente, que es la misma en todas las bolsas imaginables, y estas cuentas se distribuyen aleatoriamente en los collares. Los collares se sacan de la bolsa y se clasifican en categorías según el número de cuentas negras que contengan. Esto significa que para una bolsa con collares de longitud cinco (cinco cuentas) hay seis categorías:

w = white
b = black

0: wwwww
1: bwwww, wbwww, wwbww, wwwbw, wwwwb
2: bbwww, bwbww, bwwbw, bwwwb, wbbww, wbwbw, wbwwb, wwbbw, wwbwb, wwwbb
3: bbbww, bbwbw, bbwwb, bwbbw, bwbwb, bwwbb, wbbbw, wbbwb, wbwbb, wwbbb
4: wbbbb, bwbbb, bbwbb, bbbwb, bbbbw
5: bbbbb

Los collares tienen dirección, lo que significa que wwwwb no es idéntico a bwwww.

Cada categoría es más o menos abundante, dependiendo únicamente de la abundancia de cuentas negras y blancas, respectivamente. La suma de las abundancias relativas da 1:

I0 + I1 + I2 + I3 + I5 + ... = 1

Una vez ordenados los collares, un subconjunto de las primeras categorías (que contienen el menor número de cuentas negras; digamos la categoría 0-3, o 0-2) se separa del resto de collares y cada collar se corta una vez en una posición aleatoria, dando lugar a un montón de collares más pequeños, que llamaremos fragmentos. Estos se introducen de nuevo en nuevas bolsas en función de su nueva longitud y de si el fragmento es la parte derecha o izquierda del collar original. Así, todas y cada una de las nuevas bolsas contendrán fragmentos de idéntica longitud, aunque con distintas combinaciones de cuentas blancas y negras. Consideremos un fragmento de longitud cuatro en el que antes se eligió un subconjunto de la categoría 0-2:

0: wwww
1: bwww, wbww, wwbw, wwwb
2: bbww, bwbw, bwwb, wbwb, wwbb, wbbw

No se incluyen las categorías 3 y 4, ya que no se incluyeron en el subconjunto elegido en este escenario.

Considerando cualquiera de estas bolsas con fragmentos, la pregunta es: ¿Cuáles son las abundancias relativas de las distintas categorías? ¿Son iguales a las abundancias relativas si se hubiera elegido simplemente un collar de la longitud de los fragmentos y se hubiera escogido el mismo subconjunto?

Por ejemplo:

1. A bag with necklaces of length 16 is chosen.
A subset of category 0-2 (0-2 black beads) is chosen.
The necklaces in the subset are fragmented.
For a specific fragment of length 6 the relative abundances between the 
catogories are I0, I1 and I2 (sum 1).

2. A bag with necklaces of length 6 is chosen.
A subset of category 0-2 (0-2 black beads) is chosen, which has the relative
abundances between the catogories I0', I1' and I2' (sum 1).

Is I0'=I0, I1'=I1, I'2=I2?

Avísame si necesitas algo más. A mí mismo me resulta difícil plantear esta cuestión de forma que sea fácilmente comprensible sin dejar de dar respuesta a la verdadera pregunta. Cualquier respuesta será muy apreciada.

EDIT1: Preguntas extra: ¿Y si introducimos más colores de cuentas? ¿Y si introducimos colores que cuenten como valor doble con respecto a la categoría (por ejemplo, una de estas cuentas en un collar aumentaría la categoría en 2 en lugar de 1)?

1voto

Michael Seifert Puntos 521

Para simplificar, voy a suponer que el número de cuentas negras de la bolsa es igual al número de cuentas blancas. I piense en esta técnica podría extenderse al caso en que los dos tipos de cuentas tengan probabilidad desigual, pero no estoy 100% seguro de ello.

Supongamos que las cadenas originales son de longitud $N$ y no tienen más que $n_{B}$ cuentas negras; los fragmentos tienen $M$ cuentas. (En tu ejemplo, $N = 5$ , $M = 4$ y $n_{B} = 2$ o $3$ .) Queremos considerar qué cadenas originales tiene un fragmento con $m_B$ cuentas negras podrían haber venido. Por ejemplo, si $n_B = 2$ y $m_B = 1$ (como en su ejemplo), hay dos opciones: el fragmento BWWW podría haber surgido de la cadena BWWWW o BWWWB . Sin embargo, si $n_B = 2$ y $m_B = 2$ sólo hay una opción: el fragmento BBWW sólo podría haber surgido de la cadena BBWWW .

La probabilidad de que un fragmento dado de longitud $M$ teniendo $m_B$ cuentas negras es, por tanto, la suma de todas las probabilidades de todas las posibles cadenas "padre", y la cadena padre tendrá entre $m_B$ y $n_B$ (inclusive) cuentas negras. La probabilidad de que un fragmento dado tenga $m_B$ cuentas negras que surgen es entonces proporcional al número de cadenas "padre" posibles. Estas cadenas "progenitoras" pueden formarse añadiendo una secuencia de $N - M$ al fragmento dado, que no tienen más de $n_B - m_B$ cuentas negras en ellos. El número de tales secuencias es $$ \sum_{k = 0}^{n_B - m_B} {N - M \choose k} $$ Por último, dado que existen ${M \choose m_B}$ fragmentos con $M$ cuentas & $m_B$ la probabilidad global de obtener cualquier dicho fragmento es proporcional a $$ \boxed{ \tilde{I}_{m_B} = {M \choose m_B} \sum_{k = 0}^{n_B - m_B} {N - M \choose k} .} $$ Se tratará de una abundancia relativa y no de una abundancia global (es decir, los valores de $\tilde{I}_{m_B}$ no sumarán 1), pero podemos normalizarlo por la suma apropiada de los $\tilde{I}_{m_B}$ para obtener las abundancias absolutas.

Mientras tanto, si simplemente preguntáramos cuál es la probabilidad de obtener cualquier cadena de $m_B$ cuentas negras en una cadena de $M$ cuentas por selección directa, éste sería proporcional al número de secuencias con $m_B$ cuentas negras entre $M$ cuentas totales: $$ \boxed{ \tilde{I}'_{m_B} = {M \choose m_B} } $$ De nuevo, se trata de una abundancia relativa que habrá que normalizar para obtener una abundancia absoluta.

Parece bastante evidente que estas dos ecuaciones no arrojarán los mismos resultados. Por ejemplo, con $M = 4$ , $N = 5$ , $n_B = 2$ y $p = 1/2$ obtenemos

 m_B   I_m    I'_m
-------------------
  0    1/8    1/11
  1    1/2    4/11
  2    3/8    6/11

mientras que para $N = 16$ , $M = 6$ y $n_B = 2$ las cifras son

 m_B         I_m            I'_m
--------------------------------------
  0    56/137 ≈ 0.409    1/22 ≈ 0.045
  1    66/137 ≈ 0.482    6/22 ≈ 0.273
  2    15/137 ≈ 0.109   15/22 ≈ 0.682

Me sorprendió un poco la gran discrepancia en el segundo caso, pero hice una rápida simulación numérica para confirmarlo. En retrospectiva, debería haber sido obvio. Entre todos los collares de longitud 16 con no más de dos de las cuentas negras, muchos de ellos tendrán las 6 primeras cuentas todas blancas (con las cuentas negras más adelante en la secuencia). Por otra parte, la probabilidad de seleccionar 6 cuentas al azar que sean todas blancas es bastante baja, incluso si sólo consideramos los collares con 2 cuentas negras o menos.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X