Supongamos que
- h∈H es una hipótesis en alguna clase de clasificadores binarios H ,
- Dn es un conjunto de datos de entrenamiento de tamaño n ,
- L es la función de pérdida para el problema de clasificación binaria definida como L(x,h)={1,s(x)≠h(x)0,otherwise donde s(x) es el sistema que intentamos modelar,
- Re(h) es el riesgo empírico de h sobre un conjunto de datos determinado Dn definido como Re(h)=1nn∑i=1L(xi,h(xi))
- y R(h) es el riesgo verdadero de la hipótesis h .
¿Cómo puedo demostrar que EDn[Re(h)]=R(h) donde la expectativa en el LHS es sobre todos los posibles conjuntos de datos de entrenamiento Dn de tamaño n .
Lo que he probado hasta ahora
Desde Re(h)=1nn∑i=1L(Xi,h(xi)) entonces EDn[Re(h)]=∫DnRe(h)p(Dn)=1n∫Dn∑xi∈DnL(xi,h)p(Dn) Ahora quiero manipular esto para convertirlo en R(h)=∫xL(x,h)p(x)dx Pensé en agrupar todos los xi de la ecuación anterior, pero no pude encontrar una manera de obtener el p(x) y aquí es donde estoy atascado. Estoy buscando pistas progresivas que me ayuden a resolver esto por mí mismo.