En primer lugar, gracias por publicar una pregunta muy interesante.
Para responder a esto dentro de poco, una de vainilla convnet capacitados final-2-el fin de predecir la edad a partir de una foto estará propenso a errores de clasificar las imágenes, tales como el que usted envió. En segundo lugar, tenga en cuenta que la estimación precisa de la edad de una persona es una tarea casi imposible1.
La principal diferencia de su enfoque propuesto el uso de algunos detectores de objetos (RCNN, más Rápido RCNN, YOLO o SSD) es que usted está utilizando información diferente para entrenar los modelos. La CNN está formado sólo en imágenes y necesidades para encontrar todas las características necesarias en sí. Es más probable que va a encontrar varios tipos de rasgos faciales, sino que también va a depender de la ropa y tal vez características de escena (los niños pueden a menudo en la foto con algunos juguetes, los adultos serán más probables en los entornos de oficina, etc.). Estas características no es robusta a su contraejemplo.
Por otro lado, si se entrena la red de forma explícita detectar objetos como "torso" y "cabeza", usted está proporcionando la información adicional de que estos objetos son importantes para la tarea, y así simplificar el problema2.
Mientras que el enfoque de la detección de la cabeza y el torso y, a continuación, la evaluación de la relación de tamaño de los recuadros de delimitación suena interesante, puedo ver a varios obstáculos:
- La obtención de los datos: no soy consciente de la disponibilidad de un gran conjunto de datos donde la edad y las cajas de contorno estaría presente.
- Imperfecto FOV: En la mayoría de las imágenes (por ejemplo, tanto en sus ejemplos), la gente no se muestran en su conjunto. Usted tendrá que lidiar con el hecho de que el torso cuadros de delimitación no siempre será perfecto, simplemente porque parte de la persona que no está en la imagen y de la red tienen que adivinar cómo gran parte que falta (y el suelo de la verdad en las cajas de contorno más probable es que no capturar esta información). También, la mencionada detectores de objetos no siempre manejan las predicciones de los parciales de los objetos correctamente. Esto podría introducir demasiado ruido en el modelo.
- Varias poses: El torso y la cabeza proporción sería muy diferente para las personas vistos frontalmente y de lado.
- Adultos: parece Que la relación funciona bien para predecir las edades entre 0 y 21, pero no veo cómo se podría ayudar a predecir las edades de los adultos (supongo que la relación no cambia en los de mayor edad).
Todos estos problemas sugieren que la cabeza del torso relación de enfoque es también no va a funcionar perfectamente, aunque podría ser más robusto para su particular contraejemplo.
Supongo que la mejor manera de llevar a cabo esta tarea sería 1) detectar la cara, 2) predecir la edad sólo de la cara de los cultivos (elimina potencialmente engañosa de la información). Tenga en cuenta que algunos R-CNN-como la arquitectura de la ROI-agrupación podría ser entrenado para este fin-2-final.
1 Incluso mediante el uso de sofisticados métodos médicos (que son sin duda mucho más informativo que una foto de la persona) esto no es posible de hacer con precisión. Ver este Quora hilo para obtener más información.
2 Compruebe que el artículo que el Conocimiento Importa: la Importancia de la Información Previa para la Optimización de un ejemplo de cómo proporcionar algunos conocimientos intermedios sobre la tarea se puede simplificar enormemente el aprendizaje.