6 votos

¿Por qué utilizamos la n-dimensional espacios?

En mathoverflow, Terry Tao dice lo siguiente:

Por ejemplo, uno puede ver a una alta dimensión de espacio vectorial como un espacio de estado para un sistema con muchos grados de libertad. Una imagen megapixel, por ejemplo, es un punto en un millón de dimensiones de espacio vectorial; por la variación de la imagen, se puede explorar el espacio, y varios subconjuntos de este espacio corresponden a las diferentes clases de imágenes.

Uno puede interpretar del mismo modo las ondas de sonido, un cuadro de gases, un ecosistema, un voto de la población, un flujo de datos digitales, los juicios de variables aleatorias, los resultados de una encuesta estadística, probabilística de la estrategia en un juego de dos jugadores, y muchos otros objetos concretos como estados en una alta dimensión de espacio vectorial, y varios conceptos básicos, tales como la convexidad, la distancia, la linealidad, el cambio de variables, ortogonalidad, o la parte interior del producto que puede tener muy natural significados en algunos de estos modelos (aunque no en todos).

Este párrafo está diciendo algo que ayuda un poco, pero no acabo de entenderlo.

La imagen como un millón de espacio tridimensional.. ¿por qué considera usted que $10^6$-espacio y no simplemente 5-espacio (x,y,R,G,B, como los vectores de la base). ¿No deberías ir a por el más simple de representación?

Entiendo que se pueda definir la ortogonalidad de esta manera, el producto interior de dos $10^6$ fotos igualando a 0. Pero, ¿qué significa para 2 fotos para ser ortogonales, y ¿por qué quieres definir?

¿Para qué queremos utilizar espacio multidimensional para manejar algo como la transformada de Fourier, por ejemplo. Una onda de sonido. Se puede descomponer en 22050-dimensional en el espacio utilizando un 22050 punto de FFT, y MATLAB parece tener una mecedora buen tiempo con eso, y de los filtros. Pero, matemáticamente, estoy seguro de la razón.

6voto

Matt Dawdy Puntos 5479

La razón básica para pensar en las ondas como estar sentado en el interior de espacios vectoriales es que la ecuación de onda es lineal. Es decir, una combinación lineal de dos ondas es otra onda. Esta no es la estructura que nos imponer arbitrariamente en el problema (como uno podría argumentar acerca de las representaciones de una imagen): es la estructura que ya está presente en el que estamos reconociendo. La transformada de Fourier diagonalizes diferenciación, por lo que es una manera natural de pensar acerca de las ecuaciones diferenciales como la ecuación de onda.

Estas ideas resultan ser tan útil que tratamos de utilizar incluso en contextos donde no es necesariamente natural, a primera vista, el uso de espacios vectoriales (por ejemplo, con el aditivo de la combinatoria). Todo es parte de uno de los principios más importantes en toda la matemática:

Álgebra lineal es fácil, así como reducir gran parte de la dificultad de un problema, como puede al álgebra lineal.

Es asombroso cuánto de la matemática moderna puede ser dicho para ser una aplicación de este principio.

2voto

Klaim Puntos 24511

Creo que la pregunta está relacionada con la de por qué el espacio de las imágenes es de 1 millón de dimensiones, y no en 3 dimensiones, y por qué el estudio de estos espacios podrían ser útiles.

Bueno, creo que sobre las 3 dimensiones del espacio de colores RGB: ¿qué es un punto en ese espacio? Es simplemente un vector con 3 coordenadas: $<r, g, b>$. De modo que sólo la información de un píxel, no para toda la imagen. Cualquier punto en el espacio que lleva sólo a la información sobre la cantidad de rojo, verde y azul de un píxel.

Ahora piensa en lo que haría si usted necesita para almacenar la información de color de DOS píxeles: necesitas uno de los ejes para representar el color Rojo de 1 píxel y uno de los ejes para representar el color Rojo de pixel 2, uno para el color Verde de píxel de 1, uno para el color Verde de pixel 2; y uno Azul para el color de píxel de 1, y uno Azul para el color del pixel 2. Por lo tanto se tendría 6 eje: 3 para cada píxel.

Si usted desea representar el color de 1 millón de píxeles, se necesitan 3 * 1 millón de eje. Estos ejes son ortogonales en el sentido de que, si lo desea, puede cambiar el color de un solo píxel, sin tener que ajustar el color de cualquier otro píxeles. Por lo tanto se tendría un espacio con 3 * 1 millón de dimensiones. Cada punto en ese espacio que ahora corresponde a una imagen: en concreto, las coordenadas a lo largo de cada uno de los 3 * 1 millón de ejes que le da el valor de R, G o B para un píxel dado.

Así, en efecto, si usted quiere tener un espacio de IMÁGENES, y no un espacio de PÍXELES, usted necesita un 3 * de 1 millón de dimensiones del espacio, no un espacio 3D.

Ahora piensa en lo que pasaría si se puede tomar, por ejemplo, de 50 fotos de rostros humanos y de la trama en este 3 millones de dimensiones del espacio, y ver dónde se encuentran. Por supuesto, usted no puede visualizar este, pero se podría esperar que estas fotos tienen ALGO en común (después de todo, son todas las imágenes de rostros humanos, no arbitraria fotos de cualquier cosa, o un loco combinaciones de colores de los píxeles). Si usted puede ver cómo estas imágenes están repartidas en ese espacio (donde los puntos correspondientes a dichas imágenes, que es), veríamos que normalmente no se encuentran en cualquier LUGAR. Por ejemplo, los rostros humanos tiene los típicos colores -- que no tienden a ser de color verde, por ejemplo. Eso significa que las regiones del espacio donde esperaría a ver los pixeles verdes son probablemente una especie de vacío. Que es lo que quieren decir cuando hablan de la identificación de la subespacio de rostros humanos. Es sólo la "superficie", o sub-regiones de las que 3*1 millón de espacio tridimensional en el que se espera encontrar los puntos correspondientes a los rostros humanos. Normalmente la sub-región podría ser descrito con menos información de la que 3*1 millón de coordenadas, si usted acaba de encontrar una mejor representación de su imagen, en lugar de uno que almacena el valor de todos y cada uno de r,g,b componente para todos los píxeles. Es por eso que la compresión de la imagen es posible: si usted acaba de encontrar la manera correcta de representar a su información (como el valor de su 3*1 millón de componentes RGB), puede hacer que con MENOS de 3*de 1 millón de números; en concreto, ya que estos números tienen un patrón.

Es posible tratar de identificar la FORMA de la sub-región de la 3-millones-dimensional espacio donde los rostros humanos tienden a aparecer. Luego se da otra imagen que no sé si es un rostro humano o no, usted podría tratar de ADIVINAR si se trata de un rostro humano. Cómo? Así, compruebe si el punto correspondiente a la nueva imagen, cuando se trazan en que 3*1 millón de dimensiones del espacio, está cerca de la sub-región en donde los puntos de rostros humanos por lo general son. A veces se llaman el proceso de identificación de este subregiones con el nombre de "colector de aprendizaje".

Ok, un montón de información. Sólo pensar en ello por un tiempo. Es difícil (de hecho, imposible) para visualizar los espacios con más de 3 dimensiones, pero una vez que tienes la idea de lo que está pasando, a menudo verás que tus intuiciones acerca de lo que sucede en 2D o 3D a llevar a cabo.

Pruebe este ejercicio: imagina que un blanco y negro de la imagen con sólo 3 píxeles; cada píxel es sólo un valor entre 0 y 1, siendo 0 completamente negro y 1 que está completamente en blanco, y valores de entre tonos de gris). Ahora imagínate que el conjunto de imágenes donde el primer píxel es más oscuro que el segundo, y el segundo es más oscuro que el de la tercera. Es decir, imágenes como esta:

$< 0.3, 0.8, 1.0 >$ o $< 0.12, 0.53, 0.7 >$

Ahora generar un montón de aquellos (es decir, 10.000 imágenes como esa) y de la trama en 3D donde se encuentran. Aviso de que hay un patrón en estas imágenes: el valor de la 2ª pixel es siempre mayor que el valor de la 1 de píxel; el valor de la 3ª pixel es siempre mayor que el valor de la 2da. Claramente, no debemos esperar que los puntos correspondientes a imágenes como esta para ocupar CUALQUIER lugar en el espacio 3D. Por ejemplo, podemos ciertamente no ver los puntos en el espacio cercano a < 0.5, 0.3, 0.1 >.

De hecho podemos ver cómo 10.000 de tales imágenes en esta parcela, donde muestro 10.000 imágenes como las que he descrito. Desde cada eje se corresponde con el valor de uno de los 3 píxeles en una imagen dada, tenemos 3 ejes. Cada punto de la parcela es, pues, una de 3 píxeles de la imagen.

enter image description here

Observe cómo los puntos se ocupan sólo una pequeña parte de todo el espacio 3D. Eso sucede porque hay una relación entre los valores de los píxeles. Imágenes de ese tipo, todos tienen algo en común, por lo que ocupan porciones similares de todo el espacio 3D.

De la misma manera, si usted podría parcela de 1 millón de píxeles de las imágenes (que se encuentran en un 3*de 1 millón de dimensiones del espacio, como se mencionó antes), y todas esas imágenes corresponden a las imágenes de rostros humanos, tendría que ver con algún patrón como el que mostré anteriormente. Específicamente, los puntos correspondientes a las imágenes de rostros humanos más probable es que NO ocupa la totalidad de 3 millones de espacio tridimensional. En realidad podríamos tratar de estimar la "forma" de la sub-región, donde los rostros humanos son mediante el uso de técnicas llamado "colector de aprendizaje".

Ahora, observe que usted podría utilizar las mismas ideas anteriores para analizar cualquier otro tipo de datos. Los resultados de un estudio estadístico? Imagine que usted tiene 50 preguntas, cada una de ellas un valor de 0 a 100. Usted esas preguntas a una persona y obtener 50 números de la espalda. Se les pregunta a otra persona y conseguir otro 50 números. Cómo "ver"? Parcela en un 50 dimensiones del espacio donde cada eje corresponde al valor de una determinada respuesta. Un punto en el espacio que corresponde a 50 números (específicamente, las respuestas dadas en una encuesta específica). Si usted trama, digamos, 1000 de estas encuestas en este espacio, usted podría conseguir 1000 50-dimensional puntos. Tal vez hay algún patrón puede ser encontrado; tal vez no la hay. Si es así, podría darse el caso de que estos 1000 50-dimensional puntos se encuentran en un subespacio (o sub-región) de los 50-D en el espacio. Que es lo que Terence Tao estaba diciendo cuando dijo que es útil para el estudio de estos subespacios, o sub-regiones, y cuando dijo que el "subconjuntos de este espacio corresponden a las diferentes clases de imágenes."

Espero que ayude!

Bruno

1voto

Shabaz Puntos 403

Una razón para pensar acerca de un millón de píxeles de la imagen en $10^6$ (o, más probablemente, $3\cdot 10^6$) de espacio tridimensional en vez de RGB es que cada punto en el espacio que corresponde a una imagen diferente. Las imágenes que se cierre en coordenadas son similares en contenido. En el espacio RGB (3 dimensiones) usted no tiene que, de hecho, no sé cómo localizar una imagen en 3 espacio.

Como usted dice, la definición de dos imágenes para ser ortogonales no parece muy útil, pero muchas de las operaciones que hacemos en el tratamiento de imágenes pueden ser representados por matrices. El enfoque y el desenfoque de los filtros son buenos ejemplos. Así son "aclarar las sombras" y "oscurecer"

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X