Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

8 votos

Espera que la longitud de una secuencia que contiene todas las palabras de una longitud dada.

Corregir algunos alfabeto Σ y un entero positivo n. ¿Cuál es el número esperado de letras aleatorias extraídas de Σ hasta que toda la longitud-n palabras están presentes?

Por ejemplo, supongamos Σ={0,1}., a Continuación, la cadena "10" contiene todos los posibles 1-letra de palabras, es decir, "0" y "1". La duración prevista para una cadena aleatoria es simplemente el cupón de colector problema con 2 tarjetas... así que la duración prevista es de 3.

Pero es más complicado cuando las palabras se pueden solapar. Para el mismo alfabeto y n=2 podemos ver que la cadena "00110" tiene todos los 2-letra de palabras, y me afirman que es el más corto de la cadena que hace. Pero ¿cuál es la duración esperada de una cadena aleatoria que contiene las cuatro cuerdas "00", "01", "10", y "11"? La costumbre de cupón-colector de enfoque no parece funcionar.

4voto

goric Puntos 5230

Bien, aquí tienes la solución, pero no es bastante.

Como indiqué en mi respuesta a Cubrir el tiempo de tablero de ajedrez (rey), no hay en principio ninguna dificultad en responder a esta pregunta. El cálculo de la espera de la cubierta el tiempo de un conjunto de patrones de S se reduce a calcular la espera de golpear tiempo de cada posible que no esté vacía subconjunto AS:

E(cover time)=A(1)|A|1E(TA)

Estos golpear a veces se definen por TA=inf. Estos, a su vez, se puede encontrar utilizando una técnica de la Sección 14.3 (Patrones III) de los Problemas y las Instantáneas desde el Mundo de la Probabilidad por Blom, Holst, y Sandell.

Por ejemplo con cadenas de longitud dos nos encontramos \mathbb{E}(T_{00,01,10,11})=2 \mathbb{E}(T_{00,01,10})=\mathbb{E}(T_{01,10,11})=5/2,\quad \mathbb{E}(T_{00,10,11})= \mathbb{E}(T_{00,01,11})=9/4 \mathbb{E}(T_{00,01})=\mathbb{E}(T_{00,10})=\mathbb{E}(T_{00,11})=\mathbb{E}(T_{01,10})=\mathbb{E}(T_{01,11})=\mathbb{E}(T_{10,11})=3 \mathbb{E}(T_{00})=\mathbb{E}(T_{11})=6,\quad \mathbb{E}(T_{01})=\mathbb{E}(T_{10})=4

Conectar toda esta información en (1), encontramos que el tiempo de espera para ver todos los modelos de cuatro 00,01,10, e 1119/2=9.5.

Sólo por diversión, he calculado el tiempo de espera para ver todos los ocho patrones de longitud de tres a {89259/ 3640}= 24.5217.

2voto

palehorse Puntos 8268

Actualización: Esto está mal - lo siento, no entendí la pregunta, tengo entendido que estaban interesados en conseguir todas las permutaciones (palabras con letras diferentes).


Para n=2 no es difícil ver que la duración prevista es de 5 : duración prevista de la primera ejecución (2) + duración prevista de la segunda (2) + 1. Para n>2 me parece más difícil.

Aplicando el cupón-colector de enfoque, se podría decir que el número esperado de trata de recoger la m-th permutación (entre n! permutaciones) es1/p_m = n^n/(n!-m), por lo que

E_n = n^n \left( \frac{1}{1} + \frac{1}{2} + \dots +\frac{1}{n!} \right)=n^n H({n!})

Esto, por supuesto, es una aproximación, porque se supone que cada nueva letra de la secuencia da un nuevo n-palabra, independiente de los anteriores; pero la superposición debe introducir alguna dependencia. No está claro, sin embargo, el sentido de esta dependencia. Y esto, junto con el hecho de que un gran n la probabilidad de que una palabra de ser una permutación (incluso para el "primer cupón") es baja, lleva a pensar que la aproximación podría ser razonable. Evidencia numérica ve a un acuerdo.

Por ejemplo: para E_5 = 16777.7, empíricamente llego \approx 16730.


Actualización: en Realidad no estamos interesados en conseguir todas las permutaciones ( n! ), pero todas las palabras (n^n). El de arriba coupen-colector de enfoque también se puede aplicar, dándonos E_n \approx n^n H(n^n) \sim n^{n+1} \log(n) , pero la independencia de la asunción está menos justificado, y el resultado es menos preciso.

Podemos considerar cada palabra como un vértice en un grafo dirigido, o el estado de un doblemente estocástico de cadenas de Markov (n igual no nulos entradas en cada columna de la fila). Estamos pidiendo, a continuación, sobre la cubierta del tiempo de esta cadena. Esto podría ayudar a localizar el material. Por ejemplo, aquí (sección 2.3) se afirma como un resultado conocido (pero las referencias que faltan) la asympotic

E_n \sim n^n \log(n)

También, ver aquí (página 11.3.3).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X