Supongamos que
- $h \in \mathcal{H}$ es una hipótesis en alguna clase de clasificadores binarios $\mathcal{H}$ ,
- $\mathcal{D}_n$ es un conjunto de datos de entrenamiento de tamaño $n$ ,
- $\mathcal{L}$ es la función de pérdida para el problema de clasificación binaria definida como $$ \mathcal{L}(x,h) = \begin{cases} 1, & s(x) \not= h(x) \\ 0, & \text{otherwise} \end{cases} $$ donde $s(x)$ es el sistema que intentamos modelar,
- $R_e(h)$ es el riesgo empírico de $h$ sobre un conjunto de datos determinado $\mathcal{D}_n$ definido como $$ R_e(h) = \frac1n\sum_{i=1}^{n}\mathcal{L}(x_i, h(x_i)) $$
- y $R(h)$ es el riesgo verdadero de la hipótesis $h$ .
¿Cómo puedo demostrar que $$ \mathbb{E}_{\mathcal{D}_n}\left[R_e(h)\right] = R(h) $$ donde la expectativa en el LHS es sobre todos los posibles conjuntos de datos de entrenamiento $\mathcal{D}_n$ de tamaño $n$ .
Lo que he probado hasta ahora
Desde $$ R_e(h) = \frac1n\sum_{i=1}^{n}\mathcal{L}(X_i, h(x_i)) $$ entonces \begin{align} \mathbb{E}_{\mathcal{D}_n}\left[R_e(h)\right] &= \int_{\mathcal{D}_n}{R_e(h)p(\mathcal{D}_n)} \\ &= \frac{1}{n}\int_{\mathcal{D}_n}{\sum_{x_i \in \mathcal{D}_n}\mathcal{L}(x_i, h)p(\mathcal{D}_n)} \end{align} Ahora quiero manipular esto para convertirlo en $$ R(h) = \int_{x}{\mathcal{L}(x,h)p(x)dx} $$ Pensé en agrupar todos los $x_i$ de la ecuación anterior, pero no pude encontrar una manera de obtener el $p(x)$ y aquí es donde estoy atascado. Estoy buscando pistas progresivas que me ayuden a resolver esto por mí mismo.