54 votos

¿Es posible dar imágenes de tamaño variable como entrada a la red neuronal convolutiva?

¿Podemos dar imágenes con tamaño variable como entrada a la red neuronal convolucional para la detección de objetos? Si es posible, ¿cómo podemos hacer eso?


Pero si intentamos recortar la imagen, perderemos parte de la imagen y si intentamos cambiar el tamaño, se perderá la claridad de la imagen. ¿Significa que usar la propiedad de red inherente es lo mejor si la claridad de la imagen es el principal punto de consideración?

27voto

DJCasey Puntos 16

Hay un número de maneras de hacerlo. La mayoría de estos ya han sido cubiertos en un número de puestos de StackOverflow, Quora y contenido de otros sitios web.

Para resumir, la mayoría de las técnicas mencionadas pueden ser agrupados en dos clases de soluciones, es decir,

  1. Transformaciones
  2. Inherentes A La Propiedad De La Red

En las transformaciones, uno puede buscar técnicas tales como

  • Cambiar el tamaño, que es la más sencilla de todas las técnicas mencionadas
  • De los cultivos, que se puede hacer como una ventana corrediza o de un cultivo, con una pérdida de información

Se puede ver también en las redes que tienen propiedad inherente al ser inmune a el tamaño de la entrada por la virtud de la capa de comportamiento que se crea la red. Ejemplos de esto se pueden encontrar en términos de,

  • Totalmente convolucional redes (FCN), que no tienen limitaciones en el tamaño de entrada, porque una vez que el kernel y tamaños de paso se describe, la convolución en cada capa puede generar dimensión adecuada de las salidas de acuerdo a las entradas correspondientes.

  • Espacial de la Pirámide de la Agrupación (SPP), FCNs no tienen totalmente conectado capa densa y por lo tanto son independientes del tamaño de la imagen, pero dicen que si uno quería usar capa densa, sin considerar la entrada de transformaciones, entonces no es un interesante documento que explica la capa en un aprendizaje profundo de la red.

Referencias:

  1. https://www.quora.com/How-are-variably-shaped-and-sized-images-given-inputs-to-convoluted-neural-networks
  2. https://ai.stackexchange.com/questions/2008/how-can-neural-networks-deal-with-varying-input-sizes
  3. https://discuss.pytorch.org/t/how-to-create-convnet-for-variable-size-input-dimension-images/1906

P. S. yo podría haber perdido por citar algunos de las técnicas. No afirma que esta es una lista exhaustiva.

-2voto

mclaughlinj Puntos 1099

Sí, simplemente seleccione una red troncal adecuada que no dependa del tamaño de la imagen de entrada para que sea un valor preciso; la mayoría de las redes satisfacen este criterio.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X