Las características de las imágenes que las hacen susceptibles de clasificación con una red neuronal profunda es que tienen un montón de características (posiblemente millones, si no miles de millones, de píxeles con RGB, intensidad, etc.) y, si tienes etiquetas precisas, no son datos ruidosos. Las cámaras de hoy en día son muy buenas y no miden mal nada. Gracias a Internet, ahora tenemos un montón de imágenes etiquetadas con precisión. Una red profunda puede expresar funciones arbitrariamente complicadas, lo cual es un problema con datos ruidosos porque es muy fácil sobreajustar el ruido, de ahí que muchos métodos de aprendizaje tiendan a penalizar los modelos complicados. Sin embargo, en el caso del reconocimiento de imágenes, la función real parece ser muy complicada, no tenemos ni idea de cómo es la forma funcional y ni siquiera sabemos cuáles son las características relevantes en muchos casos. Una red multicapa puede descubrir y extraer automáticamente las características relevantes, lo que no la hace completamente única, pero es una parte atractiva del modelo.
Esto no significa que no se puedan utilizar redes profundas para aprender funciones que no tengan nada que ver con las imágenes. Solo hay que tener mucho cuidado con las desventajas, sobre todo que son muy propensas al sobreajuste, pero también que son costosas desde el punto de vista computacional y puede llevar mucho tiempo entrenarlas (no es un problema tan grave hoy en día con los SGD paralelizados y las GPU). La otra desventaja es la escasa o nula interpretabilidad del modelo, que no es realmente importante para la clasificación de imágenes. Sólo intentamos que los ordenadores reconozcan la diferencia entre un chimpancé y un orangután. La comprensión humana de la fórmula no importa. Para otros ámbitos, especialmente el diagnóstico médico, la investigación política, etc., se necesita o incluso puede ser necesaria la comprensión humana.
3 votos
Tu primera frase trae a colación las redes neuronales convolucionales. Parece que las confunde con las redes neuronales profundas. No son lo mismo, aunque ambas son formas de redes neuronales.
1 votos
Yo estaría de acuerdo con @msalters, pero diría que las redes profundas de creencia son realmente redes profundas, y han tenido un éxito limitado, mientras que las redes convolucionales son más como un híbrido - filtros de imagen adaptativos s en capas convolucionales seguidas de nn poco profundas.
0 votos
¿Qué quiere decir con que las "observaciones" "no están estructuradas (no están ordenadas en una secuencia o cuadrícula)"? ¿Se refiere a que las imágenes están "estructuradas" en el sentido de que los píxeles individuales están dispuestos en una cuadrícula? Entonces, ¿son las características las que están "estructuradas", no las "observaciones" (que serían imágenes individuales)?
0 votos
Yo diría que todas las redes de convolución son profundas, no todas las redes profundas son de convolución, y del mismo modo todas las redes profundas de creencia son profundas, no todas las redes profundas son redes profundas de creencia. De hecho, se pueden tener redes profundas que no sean ni profundas ni convolucionales, sólo que tienden a ser difíciles de entrenar. Sin embargo, hay margen para un debate sin sentido sobre la terminología.
0 votos
No se puede aplicar una red convolucional a datos no estructurados (no en secuencia/rejilla, etc.). Básicamente, no tiene sentido. Una red convolucional está estrechamente relacionada con tomar la transformada de Fourier de la entrada, por ejemplo, para convertir secuencias del dominio del tiempo al dominio de la frecuencia.