En los últimos años, Convolucional Redes Neuronales (CNNs) se han convertido en el estado-of-the-art para el reconocimiento de objetos en visión por computador. Normalmente, la CNN se compone de varias convolucional capas, seguido por dos totalmente conectado capas. La intuición detrás de esto es que el convolucional capas de aprender una mejor representación de los datos de entrada, y el totalmente conectado capas, a continuación, aprender a clasificar esta representación basada en un conjunto de etiquetas.
Sin embargo, antes de CNNs comenzó a dominar, Máquinas de Soporte Vectorial (SVMs) fueron el estado-of-the-art. Por lo que parece sensato decir que una SVM es aún más fuerte clasificador de dos capas, totalmente conectados a la red neuronal. Por lo tanto, me pregunto por qué el estado-of-the-art CNNs tienden a utilizar plenamente conectado con las capas de la clasificación en lugar de una SVM? De esta manera, usted podría tener lo mejor de ambos mundos: una fuerte característica de la representación, y un fuerte clasificador, en lugar de una fuerte característica de representación, pero sólo una débil clasificador...
Alguna idea? Gracias!