Imagine que usted tiene un montón de semillas fijado sobre una placa de vidrio, que está en reposo en posición horizontal sobre una mesa. Porque de la manera que normalmente pensamos en el espacio, sería seguro decir que estas semillas vivo en un espacio de dos dimensiones, más o menos, porque cada semilla puede ser identificado por los dos números que dan de que las semillas de las coordenadas en la superficie del vidrio.
Ahora imagine que usted tome el plato y la inclinación en diagonal hacia arriba, de manera que la superficie del vidrio no es más horizontal con respecto al suelo. Ahora, si quieres localizar una de las semillas, que tienen un par de opciones. Si decide omitir el cristal, a continuación, cada una de las semillas parece estar flotando en el espacio tridimensional encima de la mesa, y por lo que se necesita para describir cada una de las semillas de ubicación mediante tres números, uno para cada dirección espacial. Pero sólo por la inclinación del vidrio, no ha cambiado el hecho de que las semillas todavía viven en una superficie de dos dimensiones. Así se podría describir cómo la superficie del vidrio se encuentra en el espacio tridimensional, y entonces usted podría describir la ubicación de las semillas en el cristal con su original de dos dimensiones.
En este experimento, la superficie de vidrio es similar a una baja de las dimensiones del colector de que existe un mayor espacio tridimensional : no importa cómo usted rote el plato en tres dimensiones, las semillas todavía viven a lo largo de la superficie de un plano bidimensional.
Ejemplos
De manera más general, una baja de las dimensiones del colector incrustado en una de mayores dimensiones que el espacio es sólo un conjunto de puntos que, por cualquier razón, son considerados para ser conectado o parte del mismo conjunto. En particular, el colector puede ser distorsionado de alguna manera en el de mayores dimensiones en el espacio (por ejemplo, tal vez la superficie del vidrio es deformado en forma de bol, en lugar de una forma de placa), pero el colector básicamente sigue siendo de baja dimensión. Especialmente en el espacio de alta dimensión, este colector puede tomar diferentes formas y formas, pero debido a que vivimos en un mundo en tres dimensiones, es difícil imaginar ejemplos que tienen más de tres dimensiones. Sólo como muestra, sin embargo, considere estos ejemplos :
- un pedazo de vidrio (plano, de dos dimensiones) en el espacio físico (en tres dimensiones)
- un único subproceso (unidimensional) en un trozo de tela (de dos dimensiones)
- un trozo de tela (de dos dimensiones) arrugados en la lavadora (en tres dimensiones)
Ejemplos comunes de los colectores en el aprendizaje de máquina (o, al menos, establece que la hipótesis de que se viven a lo largo de bajas dimensiones colectores) incluyen :
- imágenes de escenas naturales (normalmente no ver las imágenes de ruido blanco, por ejemplo, lo que significa que "natural" de las imágenes no ocupar todo el espacio de posibles píxel de la configuración)
- sonidos naturales (argumento similar)
- movimientos humanos (el cuerpo humano tiene cientos de grados de libertad, pero los movimientos parecen vivir en un espacio que puede ser representado de manera efectiva el uso de ~10 dimensiones)
El aprendizaje del colector de
El colector de asunción en el aprendizaje de máquina es que, en lugar de asumir que los datos en el mundo que puede venir de cualquier parte del espacio posible (por ejemplo, el espacio de todos los posibles 1-megapíxeles de imágenes, incluyendo el ruido blanco), tiene más sentido asumir que los datos de entrenamiento vienen de relativamente baja dimensiones de los colectores (como la placa de vidrio con las semillas). A continuación, el aprendizaje de la estructura del colector se convierte en una tarea importante; además, esta tarea de aprendizaje parece ser posible sin el uso de la etiqueta de datos de entrenamiento.
Hay muchas, muchas formas diferentes de aprendizaje de la estructura de una baja de las dimensiones del colector. Uno de los más ampliamente utilizados de los enfoques de la PCA, el cual se supone que el colector consta de una sola elipsoidal "blob" como un panqueque o cigarro forma, incrustado en un mayor espacio tridimensional. Más complicado técnicas como isomap, ICA, o de codificación dispersa relajar algunas de estas suposiciones de diversas maneras.
Aprendizaje Semi-supervisado
La razón de que el colector de asunción es importante en el aprendizaje semi-supervisado es de dos veces. Para muchas tareas realistas (por ejemplo, la determinación de si los píxeles de una imagen muestran un 4 o un 5), hay mucha más información disponible en el mundo sin etiquetas (por ejemplo, imágenes que pueden tener dígitos en ellos) que con las etiquetas (por ejemplo, imágenes que son explícitamente etiquetados "4" o "5"). Además, hay muchos órdenes de magnitud más información disponible en los píxeles de las imágenes que hay en las etiquetas de las imágenes que han etiquetas. Pero, como he descrito anteriormente, las imágenes naturales no son en realidad de muestreo de la distribución uniforme sobre pixel configuraciones, por lo que parece probable que hay algunos colector que recoge la estructura de las imágenes naturales. Pero si suponemos, además, que las imágenes que contiene 4s se encuentran en su propio colector, mientras que las imágenes que contiene 5s asimismo se acuesta en una diferente, pero en las inmediaciones del colector, entonces podemos tratar de desarrollar representaciones para cada uno de estos colectores, utilizando sólo los datos de los píxeles, con la esperanza de que los diferentes colectores estarán representados mediante diferentes características aprendidas de los datos. Luego, más adelante, cuando tengamos un par de bits de la etiqueta de los datos disponibles, se pueden utilizar los bits que simplemente aplicar etiquetas a los ya identificados los colectores.
La mayor parte de esta explicación viene de trabajar en el profundo y la función de aprendizaje de la literatura. Yoshua Bengio y Yann LeCun, consulte la Energía Basada en el Aprendizaje Tutorial particularmente accesible argumentos en esta área.