Creo que la pregunta está relacionada con la de por qué el espacio de las imágenes es de 1 millón de dimensiones, y no en 3 dimensiones, y por qué el estudio de estos espacios podrían ser útiles.
Bueno, creo que sobre las 3 dimensiones del espacio de colores RGB: ¿qué es un punto en ese espacio? Es simplemente un vector con 3 coordenadas: $<r, g, b>$. De modo que sólo la información de un píxel, no para toda la imagen. Cualquier punto en el espacio que lleva sólo a la información sobre la cantidad de rojo, verde y azul de un píxel.
Ahora piensa en lo que haría si usted necesita para almacenar la información de color de DOS píxeles: necesitas uno de los ejes para representar el color Rojo de 1 píxel y uno de los ejes para representar el color Rojo de pixel 2, uno para el color Verde de píxel de 1, uno para el color Verde de pixel 2; y uno Azul para el color de píxel de 1, y uno Azul para el color del pixel 2. Por lo tanto se tendría 6 eje: 3 para cada píxel.
Si usted desea representar el color de 1 millón de píxeles, se necesitan 3 * 1 millón de eje. Estos ejes son ortogonales en el sentido de que, si lo desea, puede cambiar el color de un solo píxel, sin tener que ajustar el color de cualquier otro píxeles. Por lo tanto se tendría un espacio con 3 * 1 millón de dimensiones. Cada punto en ese espacio que ahora corresponde a una imagen: en concreto, las coordenadas a lo largo de cada uno de los 3 * 1 millón de ejes que le da el valor de R, G o B para un píxel dado.
Así, en efecto, si usted quiere tener un espacio de IMÁGENES, y no un espacio de PÍXELES, usted necesita un 3 * de 1 millón de dimensiones del espacio, no un espacio 3D.
Ahora piensa en lo que pasaría si se puede tomar, por ejemplo, de 50 fotos de rostros humanos y de la trama en este 3 millones de dimensiones del espacio, y ver dónde se encuentran. Por supuesto, usted no puede visualizar este, pero se podría esperar que estas fotos tienen ALGO en común (después de todo, son todas las imágenes de rostros humanos, no arbitraria fotos de cualquier cosa, o un loco combinaciones de colores de los píxeles). Si usted puede ver cómo estas imágenes están repartidas en ese espacio (donde los puntos correspondientes a dichas imágenes, que es), veríamos que normalmente no se encuentran en cualquier LUGAR. Por ejemplo, los rostros humanos tiene los típicos colores -- que no tienden a ser de color verde, por ejemplo. Eso significa que las regiones del espacio donde esperaría a ver los pixeles verdes son probablemente una especie de vacío. Que es lo que quieren decir cuando hablan de la identificación de la subespacio de rostros humanos. Es sólo la "superficie", o sub-regiones de las que 3*1 millón de espacio tridimensional en el que se espera encontrar los puntos correspondientes a los rostros humanos. Normalmente la sub-región podría ser descrito con menos información de la que 3*1 millón de coordenadas, si usted acaba de encontrar una mejor representación de su imagen, en lugar de uno que almacena el valor de todos y cada uno de r,g,b componente para todos los píxeles. Es por eso que la compresión de la imagen es posible: si usted acaba de encontrar la manera correcta de representar a su información (como el valor de su 3*1 millón de componentes RGB), puede hacer que con MENOS de 3*de 1 millón de números; en concreto, ya que estos números tienen un patrón.
Es posible tratar de identificar la FORMA de la sub-región de la 3-millones-dimensional espacio donde los rostros humanos tienden a aparecer. Luego se da otra imagen que no sé si es un rostro humano o no, usted podría tratar de ADIVINAR si se trata de un rostro humano. Cómo? Así, compruebe si el punto correspondiente a la nueva imagen, cuando se trazan en que 3*1 millón de dimensiones del espacio, está cerca de la sub-región en donde los puntos de rostros humanos por lo general son. A veces se llaman el proceso de identificación de este subregiones con el nombre de "colector de aprendizaje".
Ok, un montón de información. Sólo pensar en ello por un tiempo. Es difícil (de hecho, imposible) para visualizar los espacios con más de 3 dimensiones, pero una vez que tienes la idea de lo que está pasando, a menudo verás que tus intuiciones acerca de lo que sucede en 2D o 3D a llevar a cabo.
Pruebe este ejercicio: imagina que un blanco y negro de la imagen con sólo 3 píxeles; cada píxel es sólo un valor entre 0 y 1, siendo 0 completamente negro y 1 que está completamente en blanco, y valores de entre tonos de gris). Ahora imagínate que el conjunto de imágenes donde el primer píxel es más oscuro que el segundo, y el segundo es más oscuro que el de la tercera. Es decir, imágenes como esta:
$< 0.3, 0.8, 1.0 >$
o
$< 0.12, 0.53, 0.7 >$
Ahora generar un montón de aquellos (es decir, 10.000 imágenes como esa) y de la trama en 3D donde se encuentran. Aviso de que hay un patrón en estas imágenes: el valor de la 2ª pixel es siempre mayor que el valor de la 1 de píxel; el valor de la 3ª pixel es siempre mayor que el valor de la 2da. Claramente, no debemos esperar que los puntos correspondientes a imágenes como esta para ocupar CUALQUIER lugar en el espacio 3D. Por ejemplo, podemos ciertamente no ver los puntos en el espacio cercano a < 0.5, 0.3, 0.1 >.
De hecho podemos ver cómo 10.000 de tales imágenes en esta parcela, donde muestro 10.000 imágenes como las que he descrito. Desde cada eje se corresponde con el valor de uno de los 3 píxeles en una imagen dada, tenemos 3 ejes. Cada punto de la parcela es, pues, una de 3 píxeles de la imagen.
Observe cómo los puntos se ocupan sólo una pequeña parte de todo el espacio 3D. Eso sucede porque hay una relación entre los valores de los píxeles. Imágenes de ese tipo, todos tienen algo en común, por lo que ocupan porciones similares de todo el espacio 3D.
De la misma manera, si usted podría parcela de 1 millón de píxeles de las imágenes (que se encuentran en un 3*de 1 millón de dimensiones del espacio, como se mencionó antes), y todas esas imágenes corresponden a las imágenes de rostros humanos, tendría que ver con algún patrón como el que mostré anteriormente. Específicamente, los puntos correspondientes a las imágenes de rostros humanos más probable es que NO ocupa la totalidad de 3 millones de espacio tridimensional. En realidad podríamos tratar de estimar la "forma" de la sub-región, donde los rostros humanos son mediante el uso de técnicas llamado "colector de aprendizaje".
Ahora, observe que usted podría utilizar las mismas ideas anteriores para analizar cualquier otro tipo de datos. Los resultados de un estudio estadístico? Imagine que usted tiene 50 preguntas, cada una de ellas un valor de 0 a 100. Usted esas preguntas a una persona y obtener 50 números de la espalda. Se les pregunta a otra persona y conseguir otro 50 números. Cómo "ver"? Parcela en un 50 dimensiones del espacio donde cada eje corresponde al valor de una determinada respuesta. Un punto en el espacio que corresponde a 50 números (específicamente, las respuestas dadas en una encuesta específica). Si usted trama, digamos, 1000 de estas encuestas en este espacio, usted podría conseguir 1000 50-dimensional puntos. Tal vez hay algún patrón puede ser encontrado; tal vez no la hay. Si es así, podría darse el caso de que estos 1000 50-dimensional puntos se encuentran en un subespacio (o sub-región) de los 50-D en el espacio. Que es lo que Terence Tao estaba diciendo cuando dijo que es útil para el estudio de estos subespacios, o sub-regiones, y cuando dijo que el "subconjuntos de este espacio corresponden a las diferentes clases de imágenes."
Espero que ayude!
Bruno