Estoy trabajando con matrices de recuento extremadamente grandes y simétricas, e intento identificar patrones/formas en ellas. Las ondículas son una herramienta popular en el procesamiento de imágenes, y tienen algunas buenas propiedades estadísticas cuando se aplican a las variables aleatorias discretas.
El problema al que me enfrento es el siguiente: Las transformadas wavelet 2D en la diagonal contienen valores redundantes, lo que dificulta la interpretación estadística de sus coeficientes.
SIN EMBARGO Me he dado cuenta de que la parte triangular inferior de mi conjunto de datos (es decir, el conjunto de datos sin valores redundantes) tiene un análogo natural como tira de Möbius.
Los pasos dados para eliminar las entradas redundantes en mi matriz se ilustran en la imagen siguiente:
- Retire la mitad superior derecha de la matriz.
- Corta la imagen en diagonal por el centro.
- Gira y voltea la parte inferior derecha y "pégala" a la parte superior izquierda para que las líneas negras discontinuas queden alineadas y apuntando en la misma dirección.
- Dale al cuadrado una media vuelta y "pega" los lados amarillos para que las flechas se alineen en la misma dirección.
Si no cree que estos pasos estén justificados, vea este video sobre pares ordenados únicos.
Todo esto está muy bien, pero ¿existe una extensión natural de las ondículas (o de cualquier transformación ortogonal) a una superficie no orientable? Si es así, ¿cómo se interpreta un análisis multirresolución?
Mi intuición es que las ondículas de detalle horizontales se mantendrán, pero la propiedad no orientable complicará las ondículas de detalle verticales y diagonales.
Me interesan las fuentes que tratan el tema. Las búsquedas en la web no han aportado nada. He enviado un correo electrónico a la facultad de topología de mi escuela y aún no he recibido respuesta.
ANTECEDENTES
Incluyo este suplemento para explicar mis datos con más detalle para aquellos que tengan curiosidad.
Se trata de matrices que contienen información sobre la proximidad entre los distintos loci a lo largo de una cadena de ADN. La página web método de laboratorio se conoce como Hi-C.
En pocas palabras, el ADN (que está agrupado en el núcleo) se "reticula" o se pega. De este modo, se garantiza que los fragmentos de ADN de los pasos posteriores estén de hecho cerca unos de otros en el espacio tridimensional euclidiano.
A continuación, el ADN se desmenuza. Se añade una pequeña molécula de biotina (piense en ella como un imán) a los extremos de los fragmentos de ADN, y esas puntas se "ligan" o encajan.
A continuación, el ADN se rompe de nuevo. Ahora tenemos MUCHOS trozos de ADN, PERO los trozos de ADN primario interesado (el llamado ADN "quimérico" compuesto por dos trozos de partes distantes de la cadena de ADN) tienen una molécula cargada. Así que los científicos pueden separarlas con una carga magnética.
Después de completar el proceso de laboratorio, cada punta de las moléculas de ADN quimérico es secuenciada y mapeada en el genoma. Como cada trozo procede del mismo cromosoma, se puede representar esto como una matriz simétrica, en la que cada fila/columna representa un locus único en el cromosoma, y el recuento en la celda formada por la intersección de la fila/columna representa el número de veces que esos dos loci se observaron como un trozo de ADN quimérico.
Una vez completado, el binning a cualquier resolución deseada presenta matrices más gruesas/ finas. Naturalmente, se espera que los recuentos cerca de la diagonal sean más altos, ya que esas celdas representan lugares que están cerca unos de otros en términos de longitud de arco, y por lo tanto su distancia euclidiana 3D está limitada por el teorema del triángulo.
Espero que esto sea útil.