6 votos

Funciones de activación variadas en las redes neuronales

Un profesor me ha dicho que no es posible combinar diferentes funciones de activación dentro de una red neuronal. Y no encuentro ningún ejemplo de que alguien lo haya hecho. Sin embargo, no encuentro ninguna buena explicación de por qué.

Conceptualmente, parece tener sentido: supongamos que tengo un conjunto de datos sobre alguna población. Imaginemos que la población se divide en dos tipos de personas, A y B, pero no tengo esa variable categórica en mis datos. Podríamos imaginar un modelo logístico que mapea mis datos de población en la variable categórica.

Ahora supongamos que estoy entrenando una red neuronal con una capa oculta. Me parece que tiene mucho sentido que un nodo de esa capa oculta tenga como entrada una función sigmoidea que represente la transformación de las variables de entrada en esta variable categórica latente (ahora como probabilidad, por supuesto). Mientras tanto, todos los demás nodos tienen una función de activación lineal. Y entonces la salida sería una función lineal de todos los nodos de la capa oculta.

No tengo ninguna razón para suponer que esto mejore el error de predicción. Esto es lo que quiero saber: ¿es posible estimar un modelo de este tipo utilizando enfoques estándar?

6voto

user777 Puntos 10934

Claramente usted puede utilizar diferentes activaciones en una red neuronal. Un MLP con cualquier activación y una capa de lectura softmax es un ejemplo (por ejemplo, clasificación multiclase). Una RNN con unidades LSTM tiene al menos dos funciones de activación (logístico, tanh y cualquier activación utilizada en otro lugar). Activaciones ReLU en las capas ocultas y una función lineal en la capa de lectura para un problema de regresión.

1voto

Sajit Viswan Puntos 1

Creo que lo que se quiere decir con la pregunta es: ¿podemos mezclar diferentes funciones de activación en una sola capa .

Así que imaginemos que tenemos una sola capa oculta con 3 nodos, ¿puedo configurar el primer nodo para que tenga sigmoide, el segundo nodo para que tenga ReLU, y el tercer nodo para que tenga tanh?

Acabo de pensar en esto también, y creo que debería ser posible pero con el coste del tiempo de cálculo, porque entonces no podemos vectorizar el cálculo para esa capa oculta.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X