Pensamiento:
Creo que eigenfaces es una manera decente para convertir lo que puede ser millones dimensiones de los espacios a un par de decenas de dimensiones.
Premisa:
Así que supongamos que usted está usando un decente eigenfaces herramienta, o uno que:
- ¿preprocesamiento para alinear las características apropiadas
- administra los colores de una manera apropiada
- se asegura de que las imágenes que se utilizan son todos del mismo tamaño
Esto significa que no tienen "imágenes" tanto como usted tiene vectores de longitud O(n=50) de elementos de tamaño, donde los elementos son los pesos para cada uno de los eigen-cara que componen la base.
Análisis:
Primero me gustaría crear 150-elemento de los vectores (concatenación de peso) como entradas y 1 elemento de los vectores (elementos de coincidencia más cercana) como salidas. Si el elemento 1 y 2 fueron más cercano, a continuación, el valor de salida sería "12". Si los elementos 1 y 3 fueron más cercano, a continuación, el resultado sería "13". Si los elementos 2 y 3 fueron más cercano, a continuación, la salida sería "23". Dado que sólo hay 3 únicas salidas, yo podría volver a asignarlos a la del caso 1 "12", caso 2 de "13" y el caso 3 "23.
Segundo me gustaría tirar tanto de significado como sea posible. Esto significa que me gustaría tratar de usar algo como bosques aleatorios para determinar cuál de las ~150 columnas no eran informativos. También hay un "azar" gemelo malvado "método", pero no lo tengo en mis manos la forma en que R me da con bosques aleatorios. (Si usted sabe de un buen R de la biblioteca para esto, los invito a poner en los comentarios).
En tercer lugar, en mi experiencia personal, si usted tiene decente tamaños de muestra, y decente base a un bosque aleatorio generalmente puede caer hasta el ~30 variables de interés, incluso tan lejos como 15k columnas. Aquí es donde usted tiene que considerar lo que es la forma general de la respuesta.
Usted podría tratar de una docena de razas de transformaciones de estas variables para asignar la reducción de las entradas a las salidas:
- podría entrenar un RF de la reducción de los insumos y de la llamada es buena.
- usted puede entrenar a un NN en la reducción de las entradas si quería mejor una interpolación suave y a la generalización de un RF
- usted podría utilizar algún tipo de transformación lineal de las entradas
- hay un par de docenas de otros ML de martillos para golpear con el, pero cuando tienes un martillo, cada problema parece un clavo.
Más pensamientos:
- Me gustaría ser curioso acerca de cual de las eigenfaces el conjunto reducido de referencias. Me gustaría ver los datos y dejar hablar a mí.
- Estoy muy curioso acerca de su tamaño de la muestra y la naturaleza de su variación. Si usted está buscando en 3 filas, luego de haber 150 columnas no va a ser muy productivo. Si usted tiene un par de miles de filas, a continuación, usted podría estar en un gran estado de forma. Un par de cientos de filas y usted podría estar en la media. Espero que representaban todas las fuentes de variación en términos de etnia, forma de la cara, y tal.
- No tengas miedo de mirar a través de modelos simples primero. Pueden ser buenos. Su interpretación y aplicabilidad son fácilmente evaluados. Su ejecución puede ser probado y confirmado que con mucho menos esfuerzo, a continuación, complejo y altamente sensible métodos.