4 votos

Búsqueda aleatoria para el número óptimo de las funciones de entrada y el número óptimo de capas ocultas de un MLP?

He realizado una búsqueda aleatoria en el espacio de hipótesis $$\{(c,h)| c \in U[1,256]; h\in U[1,100];c \in \mathrm{Z} \text{ and } h \in \mathrm{Z}\}$$ que define los parámetros de una norma de tipo perceptrón multicapa (MLP) de la red neuronal.

En cada paso de la búsqueda aleatoria, yo dibuje dos parámetros $c$ y $h$. $c$ define el número de características de entrada y $h$ define el número de nodos de la capa oculta. $c$ $h$ son enteros procedentes de una distribución uniforme definido anteriormente. Me entrenar una red neuronal definido por $(c,h)$ y calcular una tasa de error en la clasificación y el promedio del cuadrado de la tasa de error para cada modelo. Esto se hace con $10$-fold cross-validation para estimar el verdadero error para cada una de las $(c,h)$. Por lo tanto, tengo un promedio de la tasa de error en la clasificación y un promedio al cuadrado de la tasa de error sobre los conjuntos de tren y de la izquierda, se establece para cada par de parámetros.

La pregunta es, ¿cómo elijo la mejor pareja de $(c,h)$ y es el método que yo uso aquí suficiente? No es razonablemente claro punto en los resultados como yo había esperado.

Los resultados sobre la hipótesis de espacio en los datos de entrenamiento es:

Training sample estimated errors

Los resultados sobre la hipótesis de espacio en la bodega, entrada-salida de datos es,

Hold out sample estimated errors

Esta pregunta se refiere a trabajo que he realizado como parte de mi tesina de master, y está relacionado con la cuestión que aquí esta

3voto

karatchov Puntos 230

Hay un montón de investigación que están sucediendo ahora mismo en la mejor manera de sintonizar los parámetros de las redes. Una idea es modelar el paisaje de la generalización de error con un proceso Gaussiano y, a continuación, hacer un buen adivinar en qué mightbe el mejor conjunto de parámetros a tratar. El trabajo reciente incluye

Usted puede encontrar el trabajo teórico sobre su enfoque en el primer enlace y extensiones en los otros dos.

Un punto importante es que dividir los datos en el entrenamiento, validación y prueba como de costumbre. Pero en lugar de dejar que los humanos hacen de la optimización, hágase por el algoritmo. También, no use el conjunto de validación en el algoritmo, de lo contrario podría overfit.

0voto

John Richardson Puntos 1197

Sospecho que elegir entre un amplio conjunto es probable que terminan encima de ajuste de la cruz-error de validación. El CV de error es un dato estimado a través de una muestra finita de datos, y así tendrá una varianza finita. Esto significa que será posible tomar decisiones que reduzcan el CV de error al hacer mejoras genuinas en la generalización, sino también por la explotación de las peculiaridades ("nariz") en el CV de error debido a la particular de la muestra de datos en los que se evalúa. Las opciones más hagas, más probabilidades habrá de que el segundo tipo de reducción se llevará a cabo, lo que resultará en la generalización de rendimiento empeorando en lugar de mejorar.

Un mejor enfoque sería para formar un conjunto a partir de los modelos que se han generado, tal vez ponderado por su CV rendimiento.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X