4 votos

La reconstrucción de un orden de un conjunto múltiple de su consecutivos submultisets

Tenemos un conjunto múltiple $S$ del tamaño de la $t$ $r$ elementos distintos, donde $t$ es mucho más grande de lo $r$. Queremos reconstruir un orden $s_1, s_2, ... s_t$ de los elementos de $S$ a los valores de $t$ $r$ y, para algún entero positivo fijo $j$, el conjunto de multisets $\{ s_k, s_{k+1}, ... s_{k+j-1} \}$$1 \le k \le t-j+1$. (Tenga en cuenta que no nos da el orden de los elementos en cada conjunto múltiple o el orden de los multisets.) También sabemos $s_1, ... s_{\lfloor pt \rfloor}$ fijos $0 < p < 1$.

Para qué valores de a $t, r, j, p$ es posible reconstruir el pedido de $s_1, ... s_t$? Para esos valores, ¿cuál es el promedio - o peor-caso de la complejidad de hacerlo?


Editar (Qiaochu Yuan): he Aquí una reformulación del problema en el lenguaje de Steve Huntsman está utilizando. La generalización de Brujin gráfico de $B(r, j)$ (no parecen tener un nombre estándar) tiene vértices del conjunto de todas las palabras de longitud $j$ a partir de un alfabeto de tamaño $r$ y bordes definidos de la siguiente manera: la palabra $w_1, ... w_j$ tiene una arista dirigida a la palabra $w_2 ... w_j w_{j+1}$ para todas las opciones posibles de $w_{j+1}$. Hay una natural relación de equivalencia en las palabras, en el que dos palabras son equivalentes si tienen las mismas letras se producen en ellos con la misma frecuencia. Lo que estamos tratando de hacer es reconstruir un paseo en $B(r, j)$ de la longitud de la $t - j + 1$ sólo el conjunto de clases de equivalencia de sus vértices, y también dado un segmento inicial de la caminata que es de alguna proporción fija de todo el recorrido.

30voto

lterrier Puntos 31

(En primer lugar, mis disculpas a los administradores para los que aún no registrarse.)

Si usted considera S a ser un debruijn secuencia (una breve secuencia en la que cada par de letras de un alfabeto se produce como un contiguos subword, por ejemplo, 0120210), usted tendrá una gran cantidad de simetría en la información dada, y no ser capaz de distinguir la secuencia para reconstruir, incluso si usted dice que es un debruijn secuencia. (Usted podría ser capaz de si te han dado un tiempo suficiente segmento inicial de la secuencia.) También, usted puede no ser capaz de distinguir la cadena desde su reverso, sólo con la información de la lista de arriba. Así que creo que una única reconstrucción va a ser imposible.

Estoy buscando en un problema similar donde quiero comprimir una larga lista de números de mirar todas las sublistas de la longitud de j para la pequeña j. Aquí tengo su información además de la ordenación de todos los subconjuntos de longitud j, pero no he encontrado una manera de reconstruir el lista debido a que para cada longitud (j-1) prefijo, tengo varias opciones para completar la longitud de j lista. Parece que voy a necesitar grandes j para hacer la reconstrucción de forma única, que va a derrotar a la intención de la compresión de la secuencia.

Gerhard "Me Preguntan Sobre El Diseño Del Sistema" Paseman, 2010.01.18

15voto

Vetle Puntos 413

No "capicúa sandwich" es reconstructible. Con esto me refiero a un pedido de la forma $aba'$ donde $a'$ $a$ invierte y $a$ es al menos la longitud de la mirada de los segmentos iniciales que usted consigue. Este orden no puede ser distinguido de $ab'a'$, independientemente del valor de $j$; en otras palabras, el problema no puede ser resuelto al $p < \frac{1}{2}$. Tal vez usted quiera en lugar de un algoritmo que genera todas las posibles órdenes?

7voto

Rakesh Juyal Puntos 203

El trato con la cardinalidad de las clases de equivalencia de forma natural encaja en otra respuesta, que estoy tratando aquí.

Comenzamos con el binario caso. El primer paso en esta dirección, es notar que la matriz de adyacencia de un generalizado binario de Bruijn gráfica tiene una estructura muy simple:

$A_{ij}(\alpha) = \alpha_{2i} \delta_{2i \mod (B/q),j} + \alpha_{2i+1} \delta_{(2i+1) \mod (B/q),j}$

La matriz correspondiente/combinatoria Laplaciano es preparado a partir de receta

$\mathcal{L}(A) := \Delta(A1) - A$

donde $\Delta$ se refiere a cualquiera de los diversos diagonal operaciones (contexto, debería ser suficiente para determinar qué). La matriz de árbol teorema da que el número de árboles de expansión es cualquier director de menor importancia (todos son iguales):

$t(A) = \hat{\mathcal{L}}_{i,i}(A), \quad \forall i$.

No parece ser la pena de trabajo de una fórmula explícita para un determinante de la $k$ genéricos, incluso con $q = 2$. Un argumento clave el apoyo a este pesimismo es que cualquier finito Euleriano (por lo tanto, fuertemente conectado) dimgraph puede ser incrustado en algunos generalizada de Bruijn gráfica (que se acaba de tomar un camino de Euler para ver esto). En el ejemplo $q = 2$, $k = 4$ tenemos

$\hat{\mathcal{L}}_{B,B}(\alpha) = \alpha_1 \alpha_7 (\alpha_8 + \alpha_9)(\alpha_{12} + \alpha_{13})(\alpha_2 \alpha_5 \alpha_{11} + \alpha_3 \alpha_4 \alpha_{10} + \alpha_3 \alpha_4 \alpha_{11} + \alpha_3 \alpha_5 \alpha_{11})$

y esto toma varias páginas para derivar a mano con la expansión de los menores. No es difícil ver que no hay ninguna manera de llevar a cabo la fila o columna de permutaciones para convertir la matriz en bloque diagonal de la forma (excepto en los casos degenerados), y, en el menor expansión suficiente términos probablemente de los cultivos para producir (en el mejor), una victoria Pírrica. Para casos especiales en los que un gran conjunto de términos que poseen las simetrías se puede establecer a cero, la búsqueda de una fórmula podría ser fructífero: sin embargo, no vamos a perseguir cualquier línea aquí.

La MEJOR teorema establece que el número de etiqueta de Euler en circuitos de Bruijn clase de equivalencia está dada por la MEJOR función

$f_{BEST}(\alpha) := t(\alpha) \cdot \prod_{i=0}^{B/q-1} (\deg_i(\alpha) - 1)!$

donde el vértice o grados (que son lo mismo) son los indicados. La evaluación de esta función rápidamente se vuelve muy exigente, como el número de evaluaciones y $k$ de aumento. El factorial términos sólo puede añadir a cualquier demandas computacionales esta función hace.

En realidad, las cosas se ponen aún peor: la etiqueta de Euler circuitos enumerados por el MEJOR función en una correspondencia uno a uno con los collares. La correspondencia es trivial para el periódico collares, por lo que la división de la MEJOR función por la obvia producto de factoriales no acaba de funcionar. La fórmula adecuada para el collar de la función es (como J. Jonsson señalado en el sci.de matemáticas.de investigación)

$f_{neck}(\alpha) := \sum_{d|\gcd \alpha}\frac{\phi(d) f_{BEST}(\alpha/d)}{d\cdot(\alpha/d)!}$

donde el phi de Euler de la función se indica y las funciones de las tuplas son definidos en el obvio (de las componentes). En lugar de una detallada de la prueba nos limitamos a ofrecer una breve explicación: para cada término de la suma, la $f_{BEST}(\alpha/d)$ contribución da el número de la etiqueta "divisor-Euler" circuitos con la correspondiente longitud; el factorial términos de la cuenta para eliminar las etiquetas. El $d$ término en el denominador representa la concatenación de estos "divisor-Euler" circuitos en un circuito de Euler. Finalmente, el phi de la función de cuentas por no equivalentes turnos entre estos diversos "divisor-Euler" circuitos.

Podemos pasar de aquí a obtener el p-ary MEJOR y collar de funciones. La matriz de adyacencia de un generalizada q-ario de Bruijn gráfica no es muy diferente que en el binario caso:

$A_{ij} = \sum_{\ell=0}^{q-1} \alpha_{qi+\ell} \delta_{(qi+\ell) \mod (B/q), j}$.

Es un ejercicio en la notación para mostrar que el Laplaciano es

$\hat{\mathcal{L}}_{ij}(\alpha) = \sum_{\ell = 0}^{q-1} \alpha_{qi+\ell}\left(\delta_{ij} - \delta_{(qi+\ell) \mod (B/q),j} \right)$

y el $q$-ary forma de collar de la función tiene el mismo formato que la versión binaria.

Como un ejemplo, considere el caso de $q = 2$: no es fácil conseguir que

$f_{BEST}(\alpha) = \frac{\alpha_1(\alpha_0 + \alpha_1)!(\alpha_1 + \alpha_3)!}{(\alpha_0 + \alpha_1)(\alpha_1 + \alpha_3)}$

y a partir de esto que

$f_{neck}(\alpha) = \frac{\alpha_1}{(\alpha_0 + \alpha_1)(\alpha_1 + \alpha_3)} \sum_{d|\gcd(\alpha_0, \alpha_1, \alpha_3)} \phi(d) \binom{\frac{\alpha_0 + \alpha_1}{d}}{\frac{\alpha_1}{d}}\binom{\frac{\alpha_1 + \alpha_3}{d}}{\frac{\alpha_1}{d}}$.

Para tomar el ejemplo más, volvamos a fijar la longitud de la palabra a los 16 años y calcular la distancia. Calculamos no trivial de valores de el collar de la función sobre la $\alpha_0$-$\alpha_1$ plano de $0 \le \alpha_0 \le 14$$1 \le \alpha_1 \le 7$:

4   7   4                                               
22  56  75  56  22                                      
42  126 210 245 210 126 42                              
43  120 212 280 309 280 212 120 43                      
22  55  90  120 140 147 140 120 90  55  22              
7   12  17  20  23  24  25  24  23  20  17  12  7       
1   1   1   1   1   1   1   1   1   1   1   1   1   1   1

Observe también que el collar de la función es igual a la unidad para $(\alpha_0, \alpha_1) = (0, 0)$, $(0, 8)$, y $(16, 0)$.

3voto

skfd Puntos 463

Hablando en general, creo que estas secuencias deben ser no-reconstructible, al menos cuando se $j \leq r$.

Por ejemplo, considere los dos siguientes secuencias:

01230123012301

01320132013201

Estos son indistinguibles (cuando j = 4) si sólo nos fijamos en el multisets y no sé de los primeros elementos de la secuencia. Sin embargo, podemos conseguir alrededor de este problema para algunos fijos $p > 0$ anexando cada una de estas secuencias a algunos otros de la secuencia s.t. la inicial de secuencia fija tiene una longitud de $pt$. La única diferencia es que el primero tiene una consecutivos larga de la forma "x012" donde el otro tiene uno de la forma "x013"; esto se puede remediar mediante la anexión de una "x" al final de ambas secuencias.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X