Un profesor me ha dicho que no es posible combinar diferentes funciones de activación dentro de una red neuronal. Y no encuentro ningún ejemplo de que alguien lo haya hecho. Sin embargo, no encuentro ninguna buena explicación de por qué.
Conceptualmente, parece tener sentido: supongamos que tengo un conjunto de datos sobre alguna población. Imaginemos que la población se divide en dos tipos de personas, A y B, pero no tengo esa variable categórica en mis datos. Podríamos imaginar un modelo logístico que mapea mis datos de población en la variable categórica.
Ahora supongamos que estoy entrenando una red neuronal con una capa oculta. Me parece que tiene mucho sentido que un nodo de esa capa oculta tenga como entrada una función sigmoidea que represente la transformación de las variables de entrada en esta variable categórica latente (ahora como probabilidad, por supuesto). Mientras tanto, todos los demás nodos tienen una función de activación lineal. Y entonces la salida sería una función lineal de todos los nodos de la capa oculta.
No tengo ninguna razón para suponer que esto mejore el error de predicción. Esto es lo que quiero saber: ¿es posible estimar un modelo de este tipo utilizando enfoques estándar?