10 votos

Sensibilidad de la balanza de red de los nervios circumvolucionales

Por el bien de ejemplo, supongamos que estamos construyendo un estimador de la edad, basado en la imagen de una persona. A continuación tenemos a dos personas en trajes, pero la primera es claramente menor que el segundo.

zoot_suits1.jpg

Si5JQ.jpg

Hay un montón de características que implican, por ejemplo, la estructura de la cara. Sin embargo, la mayoría de contar característica es la relación de tamaño de la cabeza al tamaño del cuerpo:

Neoteny_body_proportion_heterochrony_human.png

Así que supongamos que hemos entrenado a CNN de regresión para predecir la edad de la persona. En mucho de la edad de los predictores que he probado, la imagen de arriba de el niño parece engañar a las predicciones en el pensamiento de que él es mayor, debido a la demanda y probable, puesto que dependen principalmente de la cara:

yN5dk.png

Me pregunto que tan bien puede vainilla CNN arquitectura inferir la relación de la cabeza con el torso?

Comparación regional RCNN, que es capaz de conseguir que las cajas de contorno en el cuerpo y la cabeza, la vainilla CNN realizar siempre la peor?

Justo antes del mundial de aplanamiento en la esencia de vainilla, CNN (es decir, justo después de que todas las circunvoluciones), cada salida tiene su correspondiente campo receptivo, que debe tener un sentido de la escala. Sé que más rápido RCNN explota esta haciendo cuadro delimitador propuestas exactamente en esta etapa, por lo que todos los anteriores convolucional filtros automáticamente tren a todas las escalas.

LcHgE.png

Así que, yo creo que la esencia de vainilla, la CNN debe ser capaz de inferir la proporción de la cabeza al torso de tamaño? Esto es correcto? Si es así, es la única ventaja de utilizar un más rápido RCNN marco para explotar el hecho de que puede haber sido previamente entrenados en la detección de personas?

8voto

OmaL Puntos 106

CNNs, demasiado grandes para una clase de modelos, para responder a esta pregunta. LeNet, AlexNet, ZFNet y VGG16 se comportan de manera muy diferente que GoogLeNet, que fue construido específicamente para hacer más de lo que R-CNN, CNN (arquitectura puede saber GoogLeNet con el nombre de la Creación, aunque estrictamente hablando Creación es sólo la unidad básica (subred) a la que GoogLeNet está construido). Finalmente, ResNets se comportan de forma diferente. Y todas estas arquitecturas no fueron construidos para clasificar las clases de edad, pero el 1000 ImageNet clases, ya que no contienen clases de edad para los seres humanos. Uno podría usar la transferencia de aprendizaje (si tienes suficiente imágenes de entrenamiento) para entrenar a uno de los ampliamente disponibles modelos entrenados por encima, y ver cómo se realizan. En general, sin embargo, especialmente los mayores de arquitecturas (digamos hasta VGG16) tienen un duro momento aprendizaje global "características" que requieren para aprender acerca de la "cabeza" (ya de un complejo característica), "torso" (otra de las funciones complejas) y su relación (que también requiere que las dos características se encuentran en una determinada relación espacial). Este tipo de cosas es lo Cápsula de Redes debería haber sido capaz de hacer.

Convnets han nacido para hacer exactamente lo contrario: ser sensible a los locales de características, y relativamente insensible a su posición relativa/escala. Una buena Convnet debe reconocer "gato blanco" si la imagen es un close-up o una Americana de tiro. La combinación de convolucional capas (que son sensibles a las características locales) con la agrupación de capas (que quitar parte de la sensibilidad a la variación en la escala o la traducción de la imagen) le da una arquitectura que en su forma más básica no es muy grande, en el aprendizaje de la clase de las relaciones espaciales entre los objetos que estás buscando. Hay un ejemplo en algún lugar (pero no puedo encontrarlo) donde, después de dividir un gato de la imagen en varios rectangulares superpuestas de azulejos y ponerlos juntos en un orden aleatorio, la CNN mantener la identificación de la imagen como cat. Esto indica que CNNs son más sensibles a las características locales (texturas o algo así) que a la relación espacial entre los de alto nivel de características. Véase también la Cápsula de redes de papel para algunos discusión de este.

Mi conjetura es que uno de los recientes arquitecturas sería perfectamente capaz (dada la suficiente cantidad de datos) de discernimiento de los hombres de los niños, pero no a causa de un "umbral" en una métrica relación entre el alto nivel de características tales como la "cabeza" y "torso". Sería aprender estadística en la regularidad, tal vez completamente imperceptible para los seres humanos, que separa imágenes para adultos de los niños de las imágenes en el conjunto de entrenamiento.

7voto

Jan Kukacka Puntos 1027

En primer lugar, gracias por publicar una pregunta muy interesante.

Para responder a esto dentro de poco, una de vainilla convnet capacitados final-2-el fin de predecir la edad a partir de una foto estará propenso a errores de clasificar las imágenes, tales como el que usted envió. En segundo lugar, tenga en cuenta que la estimación precisa de la edad de una persona es una tarea casi imposible1.

La principal diferencia de su enfoque propuesto el uso de algunos detectores de objetos (RCNN, más Rápido RCNN, YOLO o SSD) es que usted está utilizando información diferente para entrenar los modelos. La CNN está formado sólo en imágenes y necesidades para encontrar todas las características necesarias en sí. Es más probable que va a encontrar varios tipos de rasgos faciales, sino que también va a depender de la ropa y tal vez características de escena (los niños pueden a menudo en la foto con algunos juguetes, los adultos serán más probables en los entornos de oficina, etc.). Estas características no es robusta a su contraejemplo.

Por otro lado, si se entrena la red de forma explícita detectar objetos como "torso" y "cabeza", usted está proporcionando la información adicional de que estos objetos son importantes para la tarea, y así simplificar el problema2.

Mientras que el enfoque de la detección de la cabeza y el torso y, a continuación, la evaluación de la relación de tamaño de los recuadros de delimitación suena interesante, puedo ver a varios obstáculos:

  1. La obtención de los datos: no soy consciente de la disponibilidad de un gran conjunto de datos donde la edad y las cajas de contorno estaría presente.
  2. Imperfecto FOV: En la mayoría de las imágenes (por ejemplo, tanto en sus ejemplos), la gente no se muestran en su conjunto. Usted tendrá que lidiar con el hecho de que el torso cuadros de delimitación no siempre será perfecto, simplemente porque parte de la persona que no está en la imagen y de la red tienen que adivinar cómo gran parte que falta (y el suelo de la verdad en las cajas de contorno más probable es que no capturar esta información). También, la mencionada detectores de objetos no siempre manejan las predicciones de los parciales de los objetos correctamente. Esto podría introducir demasiado ruido en el modelo.
  3. Varias poses: El torso y la cabeza proporción sería muy diferente para las personas vistos frontalmente y de lado.
  4. Adultos: parece Que la relación funciona bien para predecir las edades entre 0 y 21, pero no veo cómo se podría ayudar a predecir las edades de los adultos (supongo que la relación no cambia en los de mayor edad).

Todos estos problemas sugieren que la cabeza del torso relación de enfoque es también no va a funcionar perfectamente, aunque podría ser más robusto para su particular contraejemplo.

Supongo que la mejor manera de llevar a cabo esta tarea sería 1) detectar la cara, 2) predecir la edad sólo de la cara de los cultivos (elimina potencialmente engañosa de la información). Tenga en cuenta que algunos R-CNN-como la arquitectura de la ROI-agrupación podría ser entrenado para este fin-2-final.


1 Incluso mediante el uso de sofisticados métodos médicos (que son sin duda mucho más informativo que una foto de la persona) esto no es posible de hacer con precisión. Ver este Quora hilo para obtener más información.

2 Compruebe que el artículo que el Conocimiento Importa: la Importancia de la Información Previa para la Optimización de un ejemplo de cómo proporcionar algunos conocimientos intermedios sobre la tarea se puede simplificar enormemente el aprendizaje.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X