Supongamos que tengo dos secuencias de caracteres de longitud L y M, respectivamente, con los personajes elegido yo.yo.d. a partir de un alfabeto de la a a la H, cada uno con una probabilidad de p=1/8. Quiero encontrar la probabilidad de que existe una larga de longitud N que se produce simultáneamente en la longitud L y M de las secuencias. En realidad no me importa si es que ocurre exactamente una vez, o al menos una vez en cada una de las secuencias. Lo que es más fácil va a hacer.
Por ejemplo, digamos que tenemos
(L) AABBCCDDEEFFGGHH
(M) GBCCDFH
Si N=4, voy a buscar a través de M y descubrir que BCCD también se produce en L (exactamente una vez en tanto en este caso). Quiero saber que tan probable es que se haya pasado (la búsqueda de cualquier longitud de cuatro secuencia, no específicamente BCCD).
En el caso en que M=N, pensé que la respuesta sería algo como
$$\left( \begin{array}{c} L-N+1\\ 1 \end{array} \right)*(p^N)^1*(1-p^N)^{L-N}$$
dando un límite inferior, pero de esto, no estoy terriblemente confianza. En cualquier caso, M probablemente será significativamente mayor que N, por lo que sería bueno para obtener una respuesta más precisa.