Processing math: 100%

6 votos

¿Cómo puedo demostrar que el riesgo empírico medio es igual al riesgo verdadero para un clasificador binario?

Supongamos que

  • hH es una hipótesis en alguna clase de clasificadores binarios H ,
  • Dn es un conjunto de datos de entrenamiento de tamaño n ,
  • L es la función de pérdida para el problema de clasificación binaria definida como L(x,h)={1,s(x)h(x)0,otherwise donde s(x) es el sistema que intentamos modelar,
  • Re(h) es el riesgo empírico de h sobre un conjunto de datos determinado Dn definido como Re(h)=1nni=1L(xi,h(xi))
  • y R(h) es el riesgo verdadero de la hipótesis h .

¿Cómo puedo demostrar que EDn[Re(h)]=R(h) donde la expectativa en el LHS es sobre todos los posibles conjuntos de datos de entrenamiento Dn de tamaño n .

Lo que he probado hasta ahora

Desde Re(h)=1nni=1L(Xi,h(xi)) entonces EDn[Re(h)]=DnRe(h)p(Dn)=1nDnxiDnL(xi,h)p(Dn) Ahora quiero manipular esto para convertirlo en R(h)=xL(x,h)p(x)dx Pensé en agrupar todos los xi de la ecuación anterior, pero no pude encontrar una manera de obtener el p(x) y aquí es donde estoy atascado. Estoy buscando pistas progresivas que me ayuden a resolver esto por mí mismo.

4voto

throwaway Puntos 18

Supongamos que el conjunto de datos es D={X1,,Xn} donde cada punto de datos Xi se extrae i.i.d. de alguna distribución fX . El verdadero riesgo es:

R(h)=EXfX[L(X,h(X))]

Demuestra que EDn[Re(h)]=R(h)

  1. Empieza por el LHS:

EDn[Re(h)]

  1. Introduzca la expresión del riesgo empírico Re(h) :

=EDn[1nni=1L(Xi,h(Xi))]

  1. Por linealidad de la expectativa:

=1nni=1EDn[L(Xi,h(Xi))]

  1. Porque L(Xi,h(Xi)) sólo depende de Xi la expectativa conjunta (sobre los conjuntos de datos) es igual a la expectativa marginal (sobre el punto de datos Xi ):

=1nni=1EXi[L(Xi,h(Xi))]

  1. El valor esperado es el mismo para todos Xi porque están idénticamente distribuidos. Por lo tanto, podemos sustituir Xi con una variable genérica X extraídas de la misma distribución fX :

=1nni=1EXfX[L(X,h(X))]

  1. Simplifica:

=EXfX[L(X,h(X))]

Esto es igual al riesgo real R(h) .


Alternativa

He aquí una forma equivalente de proceder, empezando después del paso (3) anterior.

Escriba explícitamente el valor esperado sobre conjuntos de datos. Dado que los puntos de datos son independientes, la distribución conjunta del conjunto de datos es igual al producto de las distribuciones marginales de los puntos de datos.

=1nni=1(nj=1fX(xj))L(xi,h(xi)) dx1dxn

Reordena las integrales (véase el teorema de Fubini) y extrae los términos que implican xi hacia el exterior:

=1nni=1fX(xi)L(xi,h(xi))[(jifX(xj)) dx1dxi1 dxi+1dxn]dxi

La expresión dentro de los paréntesis es simplemente la integración de una distribución, por lo que es igual a uno:

=1nni=1fX(xi)L(xi,h(xi))dxi

La integral es el valor esperado de L() con respecto a fX :

=1nni=1EXfX[L(X,h(X))]

Esto es lo mismo que el resultado del paso (5) anterior, así que proceda con (6).

2voto

OmaL Puntos 106

En realidad es una consecuencia inmediata del hecho de que Re(h) es un estimador de Monte Carlo para R(h) ( para h fijo ). Esto es evidente si, en lugar de la terrible notación utilizada a menudo en algunos libros de introducción al Aprendizaje Automático, donde se consideran "conjuntos de datos", consideramos más propiamente un vector aleatorio X cuyo n componentes son iid. El vector aleatorio tiene una distribución de probabilidad

p(X)=p(X1,,Xn)

Ahora, obviamente Re(h(X1),,h(Xn))=f(X) es una variable aleatoria y realmente queremos calcular su expectativa:

EXp(X)[Re(h)]

Pero esto es inmediato si nos fijamos en que

f(X)=1nni=1L(Xi,h(Xi))=1nni=1g(Xi)=1nni=1Yi

no es más que el estimador Monte Carlo de la media de Y=g(X) una variable aleatoria cuya media no es más que el riesgo real. Prueba: todos Yi son iid y tenemos

E[Y]=EXp(X)[g(X)]=EXp(X)[L(X,h(X))]=R(h)

Ahora bien, el estimador de Monte Carlo tiene muchas propiedades interesantes , pero sólo necesitamos dos (en realidad una, pero gracias a la segunda también te mostraré una interesante propiedad del Riesgo Empírico, sobre la que no preguntaste):

  1. es un imparcial estimador del riesgo verdadero, es decir, su media es igual a la media de Y . De hecho,

EXp(X)[Re(h(X1),,h(Xn))]=E[Y]=R(h)

  1. es un coherente estimador del riesgo real, es decir, el estimador de Monte Carlo converge a.s. a la media de Y para el tamaño de la muestra n . En otras palabras

Re(h)a.s.R(h) as n

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X