2 votos

Si se inicializa aleatoriamente y se alimenta la misma entrada, ¿qué impide que las características de la capa convnet sean las mismas?

Vuelvo a publicar esto de scicomp según las recomendaciones de los comentarios.

(Soy un total noob ML, disculpas si he redactado las cosas mal, utilizado los términos equivocados o publicado en el sitio SE equivocado !)

He estado viendo Tutoriales Tensorflow de Magnus Erik Hvass Pederson en YouTube.

Una de las cosas que antes me confundía era de dónde procedía el conjunto de características que detecta una convnet, pero después de ver estos vídeos creo que se aprenden, empezando por inicializarse aleatoriamente.

En Tutorial nº 13 muestra una forma de visualizar qué características detecta cada capa (p. ej.: 9:36):

Detected features

Mi pregunta es: si todas estas cosas se inicializan aleatoriamente y se alimentan con los mismos datos de entrada, ¿qué impide que estas características acaben siendo las mismas? (O de otro modo, ¿qué garantiza que acaben distribuidas de forma razonable para detectar todas las cosas diferentes que se necesitan?)

1voto

Franck Dernoncourt Puntos 2128

sin embargo después de ver estos videos ahora creo que estos son aprendidos; empezando por ser inicializados al azar.

correcto

Si todas estas cosas se inicializan aleatoriamente y se alimentan con los mismos datos de entrada, ¿qué impide que estas características acaben siendo las mismas?

Dado que los pesos se inicializan aleatoriamente, recibirán diferentes actualizaciones de peso durante la retropropagación. Si los pesos se inicializaron a 0, entonces todos van a permanecer igual durante la fase de formación, que no queremos.

Entonces, si la única diferencia entre ellos es la entrada aleatoria inicial, ¿significa esto que el entrenamiento con los mismos parámetros y los mismos datos de entrenamiento dos veces podría dar lugar a dos resultados completamente diferentes (y que uno podría recoger grandes características y funcionar realmente bien y otro recoger características pobres/duplicadas y funcionar terriblemente)?

En teoría, sí. En la práctica, para la clasificación de imágenes, las características aprendidas tienden a ser bastante similares. Pero la característica 1 de su red neuronal 1 podría corresponder (vagamente) a la característica 29 de su red neuronal 2. Dado que el ensamblaje de un conjunto de redes neuronales entrenadas suele dar mejores resultados que una sola red neuronal entrenada, esto significa que las características aprendidas no son exactamente las mismas.

¿No sería mejor partir de puntos de partida conocidos (formas, patrones, etc.) en lugar de ruido aleatorio?

Supongo que se habrán publicado algunos artículos al respecto en visión por ordenador, pero no se me ocurre ninguno. En el procesamiento del lenguaje natural, es habitual inicializar los vectores de palabras con vectores de palabras preentrenados. A veces ayuda, a veces no.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X