5 votos

Comprender la complejidad de la muestra en el contexto de la convergencia uniforme

Estaba leyendo Andrew Ng notas y en la página 6 se menciona (convergencia uniforme):

$$Pr[\forall h \in \mathcal{H}_{finito}|\epsilon(h_i)-\hat{\epsilon}(h_j)| \leq \gamma] \geq 1-2ke^{-2\gamma^2m}$$

donde $\hat\epsilon(h_i) = \frac{1}{m}\sum^{m}_{j=1}Z_j$ $Z_{j}$ es una dibujado ejemplo, ${(X_i, Y_i)}$ $\epsilon(h)$ es de generalización/verdadero error de la actual h. Él dice:

Dado $\gamma$ y algunos $\delta> 0$, ¿qué tan grande debe ser m antes de que podamos garantizar que con una probabilidad de al menos $1 − \delta$, error en el entrenamiento va a ser dentro de $\gamma$ de generalización de error? Mediante el establecimiento $\delta = 2\gamma e^{−2\gamma^2m}$ y la solución para m, [debe convencerse de que esto es lo correcto a hacer!]

Supongo que lo que estoy seguro es de que la parte donde dice que debemos estar convencidos de que "es la cosa correcta de hacer." Puede alguien explicarme por qué eso es lo correcto a hacer? Supongo que realmente no entiendo el razonamiento sobre cómo obtener la complejidad de la muestra. ¿Por qué es que si ponemos a $\delta$ y, a continuación, reorganizar los términos, que es exactamente el número mínimo de muestras a fin de lograr un cierto nivel de rendimiento.

Entiendo que si se establece $\delta = 2\gamma e^{−2\gamma^2m}$ por el álgebra se obtiene:

$$m = \frac{1}{2\gamma^2}\log{\frac{2k}{\delta}}$$

Sin embargo, no entiendo cómo o por qué se convierte en:

$$m \geq \frac{1}{2\gamma^2}\log{\frac{2k}{\delta}}$$

¿Cómo funciona la igualdad se convierte en una desigualdad? es decir, entiendo el álgebra, pero no la motivación de tal álgebra y su relación con la complejidad de la muestra y de la generalización de las garantías.

2voto

Jeff Hengesbach Puntos 1639

Si $δ=2k e^{−2γ^2m}$ (hizo un pequeño error de tipeo), $\mathrm P[ |ϵ(h_i)−\hat ϵ(h_j)|≤γ] ≥1−δ$, como se desee ("podemos garantizar que con probabilidad al menos 1−δ"). Si $m' > \frac{1}{2γ^2} \log\frac{2k}{δ}$ y $δ' \equiv 2k e^{−2γ^2m'} < δ$, por lo que la probabilidad es incluso más cercana a la unidad (es la concentración límite).

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X