Las palabras clave son antecedentes y escala . Como ejemplo sencillo, imagine que intenta predecir la edad de una persona a partir de una fotografía. Con un conjunto de datos de imágenes y edades, podrías entrenar un modelo de aprendizaje profundo para hacer las predicciones. Esto es objetivamente muy ineficiente porque el 90% de la imagen es inútil, y sólo la región con la persona es realmente útil. En concreto, la cara de la persona, su cuerpo y quizá su ropa.
Por otro lado, podría utilizar una red de detección de objetos preentrenada para extraer primero los cuadros delimitadores de la persona, recortar la imagen y pasarla después por la red. Este proceso mejorará significativamente la precisión del modelo por varias razones:
1) Todos los recursos de la red (es decir, los pesos) pueden centrarse en la tarea real de predecir la edad, en lugar de tener que encontrar primero a la persona. Esto es especialmente importante porque la cara de la persona contiene características útiles. De lo contrario, los rasgos más finos que se necesitan pueden perderse en las primeras capas. En teoría, una red lo suficientemente grande podría resolver este problema, pero sería terriblemente ineficaz. La imagen recortada también es considerablemente más regular que la imagen original. Mientras que la imagen original tiene un montón de ruido, es discutible que las discrepancias en la imagen recortada estén mucho más correlacionadas con el objetivo.
2) La imagen recortada se puede normalizar para que tenga la misma escala . Esto ayuda a la segunda red a tratar los problemas de escala, ya que en la imagen original las personas pueden estar cerca o lejos. Normalizar la escala de antemano garantiza que en la imagen recortada haya una persona que ocupe toda la imagen recortada (a pesar de estar pixelada si está lejos). Para ver cómo esto puede ayudar a la escala, un cuerpo recortado que es la mitad de ancho y alto que la imagen original tiene 4 veces menos píxeles para procesar, y por lo tanto la misma red aplicada a esta imagen tendría 4 veces el campo receptivo de la red original en cada capa.
Por ejemplo, en el concurso de pulmón kaggle, un tema común en el las mejores soluciones era algún tipo de preprocesamiento de las imágenes pulmonares que las recortaba al máximo y aislaba los componentes de cada pulmón. Esto es especialmente importante en las imágenes en 3D, ya que el efecto es cúbico: al eliminar el 20% de cada dimensión, ¡te deshaces de casi la mitad de los píxeles!