He estado leyendo sobre las redes neuronales convolucionales y su uso en el reconocimiento de imágenes. La mayoría de los ejemplos que he visto hasta ahora entrenan una sola red para clasificar una imagen en una etiqueta o clase. Lo que he entendido hasta ahora es que la potencia de las CNN reside en su capacidad para comprender las formas importantes de cada clase a través del filtro de convolución. Sin embargo, mi intuición es que si alimentamos a la red con imágenes de diferentes clases los filtros tendrán que adaptar sus pesos para ajustarse a todas ellas. (Por ejemplo, un filtro que sea capaz de reconocer formas características de perros, coches y humanos)
¿No sería más eficiente tener una NN para cada etiqueta o clase, ya que los filtros convolucionales aprendidos serán más específicos y precisos? De esta forma puedo asegurarme de que los filtros convolucionales del modelo del perro tendrán sus pesos optimizados para reconocer las diferentes partes del perro.