Estaba leyendo Andrew Ng notas y en la página 6 se menciona (convergencia uniforme):
$$Pr[\forall h \in \mathcal{H}_{finito}|\epsilon(h_i)-\hat{\epsilon}(h_j)| \leq \gamma] \geq 1-2ke^{-2\gamma^2m}$$
donde $\hat\epsilon(h_i) = \frac{1}{m}\sum^{m}_{j=1}Z_j$ $Z_{j}$ es una dibujado ejemplo, ${(X_i, Y_i)}$ $\epsilon(h)$ es de generalización/verdadero error de la actual h. Él dice:
Dado $\gamma$ y algunos $\delta> 0$, ¿qué tan grande debe ser m antes de que podamos garantizar que con una probabilidad de al menos $1 − \delta$, error en el entrenamiento va a ser dentro de $\gamma$ de generalización de error? Mediante el establecimiento $\delta = 2\gamma e^{−2\gamma^2m}$ y la solución para m, [debe convencerse de que esto es lo correcto a hacer!]
Supongo que lo que estoy seguro es de que la parte donde dice que debemos estar convencidos de que "es la cosa correcta de hacer." Puede alguien explicarme por qué eso es lo correcto a hacer? Supongo que realmente no entiendo el razonamiento sobre cómo obtener la complejidad de la muestra. ¿Por qué es que si ponemos a $\delta$ y, a continuación, reorganizar los términos, que es exactamente el número mínimo de muestras a fin de lograr un cierto nivel de rendimiento.
Entiendo que si se establece $\delta = 2\gamma e^{−2\gamma^2m}$ por el álgebra se obtiene:
$$m = \frac{1}{2\gamma^2}\log{\frac{2k}{\delta}}$$
Sin embargo, no entiendo cómo o por qué se convierte en:
$$m \geq \frac{1}{2\gamma^2}\log{\frac{2k}{\delta}}$$
¿Cómo funciona la igualdad se convierte en una desigualdad? es decir, entiendo el álgebra, pero no la motivación de tal álgebra y su relación con la complejidad de la muestra y de la generalización de las garantías.