7 votos

Solicitud de referencia - Computer Vision Book

¿Cuáles son los mejores libros para obtener una sólida comprensión de la visión por ordenador? Por lo que sé de mis clases de licenciatura, casi todo el estado actual de la técnica de visión por ordenador se basa en el aprendizaje profundo, en particular en las redes neuronales convolucionales.

  • He leído el libro de Courville-Goodfellow-Bengio, así que creo que tengo un amplio conocimiento del aprendizaje profundo en su conjunto, pero no siento que domine ninguno de los temas específicos que trata su libro, ya que sólo el capítulo sobre redes neuronales convolucionales y una sección sobre aplicaciones de redes neuronales convolucionales hablan realmente de visión por ordenador.
  • También he leído el libro de Bishop sobre aprendizaje automático y el libro de Murphy sobre aprendizaje automático probabilístico, así que creo que tengo una amplia comprensión del aprendizaje automático en su conjunto, pero estoy mucho menos informado sobre subdominios específicos.
  • También me recomendaron el libro de Szeliski sobre visión por ordenador, y aún no lo he leído. Sin embargo, basándome en los contenidos, no parece que ese libro cubra el uso de redes neuronales en visión por computador, y teniendo en cuenta el rápido crecimiento reciente del campo usando redes neuronales convolucionales, no estoy seguro de si el material de este libro se consideraría entonces obsoleto. ¿Sigue siendo necesario leer este libro (o un libro de material equivalente) para poder realizar investigaciones de vanguardia en visión por computador? Si no es necesario, ¿sería al menos valioso para mí?

¿Qué otras recomendaciones hay? Aunque preferiría textos más completos, las recomendaciones de artículos y estudios también son buenas en este caso. Tengo muy buenos conocimientos tanto de matemáticas puras como de estadística, así que las referencias que se inclinen hacia los extremos más teóricos también están bien.

5voto

Lubin Puntos 21941

Que yo sepa, todavía no hay ningún libro de texto académico completo sobre visión por computador (a fecha de 2019) que se haya escrito y que incorpore el aprendizaje profundo.

Es útil separar el debate y la formulación de un problema de los algoritmos utilizados para resolverlo. @shimao señala que a menudo se reciclan métodos anteriores con nuevos componentes de aprendizaje profundo. Goodfellow et al. y el libro de Bishop son buenos libros sobre aprendizaje profundo y aprendizaje automático, respectivamente, pero no hablan mucho de problemas de visión por ordenador. Con esto me refiero a las tareas que ocupan gran parte de la investigación en visión por ordenador, como el filtrado de ruido, la reconstrucción 3D, el registro de imágenes, la fotografía computacional, la estructura a partir del movimiento, etc.

Para comprender mejor la CV, el libro de Szeliski sigue siendo bastante bueno, aunque se trata de un estudio de alto nivel. Los temas que dominan las CNN, como la segmentación y el reconocimiento, son sólo dos capítulos de ese libro, por lo que hay mucho material interesante.

Creo que los siguientes libros también son útiles y merece la pena echarles un vistazo, aunque cubren métodos clásicos:

Prince, Simon JD. Visión por ordenador: modelos, aprendizaje e inferencia. Cambridge University Press, 2012.

-

Hartley, Richard, y Andrew Zisserman. Multiple view geometry in visión por ordenador. Cambridge university press, 2003.

-

González, Rafael y Woods, Richard. Procesamiento digital de imágenes. Pearson Higher Ed, 2011.

Si realmente te interesa el CV, creo que también puede ser interesante aprender sobre percepción visual humana y óptica, así como campos relacionados como la robótica, los gráficos por ordenador y la imagen médica/científica.

4voto

jpmuc Puntos 4817

Para añadir a la respuesta de @MachineEpsilon. El aprendizaje profundo se ha convertido en la herramienta de facto para tareas como la segmentación y la detección de objetos. Y está empezando a tomar el relevo en dominios como la reconstrucción 3D. Sin embargo, sigue siendo un proceso en curso.

Aún es necesario tener un buen conocimiento de la geometría proyectiva (libro de Hartley y Zimmerman) para resolver tareas como la metrología (realizar mediciones precisas en imágenes). Hay situaciones en las que se desea extraer algunas características (como bordes o contornos). Además, el emparejamiento y seguimiento de objetos planos con métodos basados en características sigue siendo una muy buena opción, y más fácil de configurar, en comparación con el ajuste fino de una red neuronal.

Estas técnicas son también la base de muchos enfoques SLAM.

Mi punto es: todavía hay muchos casos de uso relevantes en los que o bien el aprendizaje profundo no proporciona una solución (satisfactoria), o bien los enfoques tradicionales son más fáciles de usar. Aunque solo sea porque existen bibliotecas de software bien probadas como OpenCV.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X