¿Alguien sabe cuál es la precisión de las CNN en comparación con las redes totalmente conectadas para el reconocimiento de imágenes? ¿Son buenas las CNN para algo más que el reconocimiento de imágenes? No he podido encontrar nada en Google, un enlace o explicación sería bueno.
Respuestas
¿Demasiados anuncios?Las redes neuronales totalmente conectadas son clasificadores bastante buenos, sin embargo no son buenas para la extracción de características . Antes de la aparición de las CNN, la tecnología más avanzada consistía en extraer características explícitas de las imágenes y clasificarlas a continuación.
Las CNN se entrenan para identificar y extraer las mejores características de las imágenes para el problema en cuestión. Ese es su principal punto fuerte. Las últimas capas de una CNN están totalmente conectadas debido a su fuerza como clasificador. Por tanto, estas dos arquitecturas no compiten entre sí como podría pensarse, ya que las CNN incorporan capas FC.
Si su pregunta se refería a la eficacia de una técnica de reconocimiento de imágenes basada en FC en comparación con una basada en CNN, debería consultar los resultados del ILSVRC de los últimos años. Creo que la última arquitectura sin CNN alcanzó una tasa de error entre las cinco primeras del 30% (hoy en día, con las CNN más avanzadas, es inferior al 3%).
¿Alguien sabe cómo se compara la precisión de las CNN con f para el reconocimiento de imágenes?
El mero hecho de que, desde que AlexNet ganó el concurso ImageNet, todas las redes neuronales que lo ganan utilizan componentes CNN, debería bastar para convencerle de que las CNN son mejores para los datos de imágenes.
Lo más probable es que no pueda encontrar ninguna comparación significativa, ya que las CNN son capaces de manejar datos de imágenes que son inviables utilizando sólo capas de FC.
¿Por qué?
- El número de pesos en la capa FC con 1000 neuronas para una imagen de 224x224x3 es algo así como 150M. Son 150 millones por una sola capa. .
- Si no estás convencido de que sea una cifra enorme, ten en cuenta que las modernas arquitecturas CNN que tienen entre 50 y 100 capas cuentan con un par de docenas de millones de parámetros (por ejemplo, ResNet50 tiene 23 millones de parámetros e InceptionV3, 21 millones).
¿Sirven las CNN para algo más que para reconocer imágenes?
Sí. Sirven para cualquier dato que tenga estructura espacial (por ejemplo, convoluciones 1D en el tiempo para la música).
También se utilizan en PNL - véase este documento sobre el análisis de sentimientos o éste sobre la traducción .
1. Trazabilidad computacional. número de pesos entre CNN y FC como la imagen de entrada de forma 500 x 500 x 3 estará en la capa FC con 100 unidades ocultas (base = 0)
FC layer = Wx = 100 x ( 500 x 500 x 3 ) = 100 x 750000 = 75M
por otro lado: imagen de entrada de forma 500 x 500 x 3 será después de la convolución de un núcleo de 5 * 5 con relleno cero, la zancada de 1. y 2 filtros
the new CNN layer = ((Hn + 2p - k )/s)+1,((Wn + 2p - k )/s)+1, Cn * filters num)
= 496 x 496 x 6
el número de parámetros en una capa CONV es : ((forma de anchura del filtro * forma de altura del filtro * número de filtros en la capa anterior+1)*número de filtros) 1 para sesgo
number of parameters = (Fw * Fh * D + 1 ) * F = (5 * 5 * 3 + 1 )*2 = 152
2. Representación jerárquica explícita de las características. lo mejor de la arquitectura CNN es que no necesita extracción de características.
3. Reduce el sobreajuste. Si el modelo se ajusta en exceso, puede empezar a añadir abandonos en pequeñas partes. Además, la agrupación máxima también reduce el ajuste excesivo.
4. Invariante de traslación. La invariabilidad se refiere a la capacidad de recordar un objeto como tal aunque cambie su lugar. Esto suele ser positivo porque mantiene la identidad del objeto, la categoría,
"Tenga en cuenta que traducción aquí tiene un significado específico en la visión, tomado de la geometría".