Estoy tratando de entrenar una Red Neuronal Artificial para la clasificación. En las capas de entrada, he 402 neuronas; los primeros 400 son binarios, y las dos últimas son flotantes puntos en el rango de -1 a 1. En la capa oculta he de 400 neuronas, y en la capa de salida tengo un nodo único que quiero representar valores entre -1 y 1.
He tratado de formar esta red a través de una vectorizados implementación de propagación hacia atrás que he encontrado en internet (he intentado diferentes implementaciones, y también implementado uno mismo). Mi problema es que mi red no parecen aprender mucho. Si mi tasa de aprendizaje es mayor que alrededor de 0.0001, me meten en problemas, y rápidamente entra en un mínimo local, y con una menor tasa de aprendizaje el aprendizaje es (obviamente) muy muy lento.
Puedo como mucho los datos de entrenamiento como sea posible, así que esto no es un problema, pero, por supuesto, el tiempo es limitante, así que me gustaría ser capaz de entrenar a esta red en una hora decente.
¿Tiene alguna intuición sobre lo que podría estar equivocado, o la cantidad de datos que se necesita para formar esta red de alrededor de 160.000 pesos?
Si es pertinente, puedo subir algunos de los datos.
Editar: Debido a que el comentario de Martin, he aquí algunas de aprendizaje estadísticas para diferentes número de neuronas ocultas: Hoja de cálculo de Google Docs
Otra cosa que he observado, es que para mi conjunto de datos, una salida constante de 0.3 resultará en un ESS de alrededor de 160, así que definitivamente quiero conseguir por debajo de este ESS.