Dice que la "complejidad efectiva de la red". En realidad se refiere al tamaño de los pesos de la red. Esto puede entenderse en términos del mínimo descripción longitud principio . Pero antes de entrar en eso, la intuición es que cuanto mayores sean los pesos, más tipos diferentes de funciones podrá encajar tu red y, por tanto, mayores serán los grados de libertad (y la complejidad efectiva).
En ese capítulo habla de la regularización, que es una técnica para reducir eficazmente el riesgo de sobreajuste, exigiendo que los pesos sean lo más pequeños posible. En general,
$$p(D|\mathbf{w}) = \prod_{n} p(t_{n}|\mathbf{x_{n}},\mathbf{w}) = \prod_{n}\exp \left(\frac{\beta}{2} \left[t_{n}- y(\mathbf{x_{n}},\mathbf{w}) \right]^{2}\right)/Z_{D}(\beta)$$ . donde $\mathbf{w}$ es un vector que contiene todos los parámetros que caracterizan su algoritmo y $Z_{D}(\beta)$ es una constante de normalización. Si se maximiza la log-verosimilitud de esta expresión se obtiene la estimación ML. Ahora, se añade una prioridad sobre los parámetros que actúa como un regularizador y ayuda a evitar el sobreajuste mediante el control de la complejidad de su clasificador. Concretamente, en este caso es natural suponer que los parámetros tienen una distribución gaussiana,
$$p(\mathbf{w}) = \exp \left( -\frac{\alpha ||\mathbf{w}||^{2}}{2}\right)/Z_{W}(\alpha)$$ MAP se define como $\arg\max_{w} p(\mathbf{w}|D)$ . Usando el teorema de Bayes,
$$p(\mathbf{w}|D) = p(D|\mathbf{w})p(\mathbf{w})$$ Si se sustituyen las expresiones anteriores y se toman logaritmos se obtiene (el $Z$ no dependen de $\mathbf{w}$ ),
$$\arg\min_{w} \sum_{n}\frac{\beta}{2} \left[t_{n}- y(\mathbf{x_{n}},\mathbf{w}) \right]^{2} + \frac{\alpha}{2}\sum_{i}w_{i}^{2}$$
De forma más general, se tiene que la estimación MAP equivale a lo siguiente,
$$\mathbf{w}_{MAP} = \operatorname{argmin}_{\mathbf{w}} -log_{2}P(D|\mathbf{w}) - log_{2}(\mathbf{w})$$
La parte derecha de la expresión puede interpretarse como el número de bits necesarios para describir su clasificador. El primer término representa el número de bits necesarios para codificar los errores que tu red comete en los datos de entrenamiento. El segundo representa el número de bits necesarios para codificar los pesos.
Por tanto, la estimación MAP equivale a elegir la representación más compacta posible. En otras palabras, se busca el conjunto de ponderaciones que representen lo más fielmente posible los datos de entrenamiento y que pueda expresarse con el menor número de bits.
Observe que se trata de otra forma del problema de sesgo/varianza: cuanto mayores sean los pesos, menor será el primer término, porque la red puede ajustarse mejor a los datos de entrenamiento (sobreajuste). Pero, al mismo tiempo, mayor es la complejidad de los pesos. Cuanto menores sean los pesos, menor será la complejidad de la red, pero mayor será el término de error (sesgo). Cuanto mayor sea el número de bits necesarios para codificar los errores de la red.
Espero que esto le dé una idea suficiente de a qué se refiere.
P.D. añadiendo un argumento más largo a la discusión en curso Puede que le haya entendido mal. Permítame intentar explicarme por última vez.
El prior sobre los pesos medios representa la suposición que hacemos sobre la función que se quiere ajustar. Cuanto mayor sea el prior (es decir, los pesos) más amplia será la gaussiana, es decir, más configuraciones posibles se considerarán para ajustar la red.
Consideremos el caso de la regresión (como en el artículo al que me he referido). Un error de generalización bajo significa que la red es capaz de mapear muestras no vistas muy cerca de los valores reales. Si estamos ajustando una línea recta, basta con un polinomio de primer orden (baja complejidad). Ahora bien, también se pueden ajustar los datos con un polinomio de orden superior (que los coeficientes de orden superior sean distintos de cero). La complejidad de la red es mayor porque permites oscilaciones, para una curva más compleja. No obstante, si los coeficientes correspondientes a los términos de orden superior son lo suficientemente bajos, la red puede aproximarse muy bien a la línea recta, lo que da lugar a una buena generalización.
Así que el punto de MDL es hacer que sus pesos lo más pequeño posible, siempre y cuando el error de generalización me puede minimizar a lo largo.
Por último, citándote: "Me sigue pareciendo problemático el argumento de que a medida que el modelo empiece a sobreajustarse, aumentarán sus capacidades para modelizar otras funciones. Creo que es todo lo contrario, porque un modelo que sobreajusta, no puede generalizar para ser aplicado a nueva información". Sí, puede modelizar OTRAS funciones más complejas, pero no modelizará correctamente la función que nos ocupa. En la figura 5.12 del libro, el error disminuye primero, a medida que aumenta el tamaño de la ponderación (reducción del sesgo). Hasta un punto determinado en que empieza a aumentar de nuevo (disminución de la generalización, sobreajuste).