1 votos

Analizar el error de entrenamiento frente al error empírico

Supongamos que tengo una variable aleatoria $X$ con valores en $\mathbb{R}^n$ y una función $\mathscr{L}:\mathbb{R}^n \to \mathbb{R}$ . En la práctica $X$ podría representar una distribución de datos, y $\mathscr{L}$ puede ser una función de pérdida asociada a un algoritmo de entrenamiento, por ejemplo. Me interesa analizar la diferencia entre la distribución de $\mathscr{L}(X)$ y la distribución que resulta de tomar $n$ independiente se nutre de $X$ y promediando el valor de $\mathscr{L}$ sobre ellos. $$\mathscr{L}(X) \quad \text{vs} \quad \frac{1}{n} \sum_i \mathscr{L}(X_i) , \,\, \quad X_i \text{ are i.i.d. copies of }X$$ En particular, me interesaría ver la expectativa de estas dos cosas diferentes.

(Por ejemplo, si $\mathscr{L}$ es la función de identidad, y miramos las expectativas, estamos mirando la media empírica frente a la media verdadera).

Obviamente no se puede decir nada a este nivel de generalidad. Pero me interesa leer sobre las técnicas que son relevantes para tal problema.

(Cruzado en la pila de estadísticas aquí )

1voto

user3658307 Puntos 33

Suponiendo que haya entendido su pregunta, sus expectativas son las mismas: $$ \mathbb{E}\left[\frac{1}{n}\sum_i\mathcal{L}(X_i)\right] = \frac{1}{n}\sum_i \mathbb{E}[\mathcal{L}(X)] = \mathbb{E}[\mathcal{L}(X)] $$ por la linealidad de la expectativa y $X_i \stackrel{d}{=} X$ con $X\sim\mathcal{D}$ .

Esencialmente, en el caso del IID, esto no es un problema interesante. Los verdaderos problemas comienzan cuando algunos de estos supuestos dejan de ser válidos.

Lo que probablemente quieras mirar es teoría del aprendizaje computacional En concreto, el probablemente sea aproximadamente correcto (véase también aquí ). Esto le permite probar cosas como límites de complejidad de la muestra que (para un espacio de hipótesis específico) le indican cuántos puntos de datos necesita para garantizar que su aprendiz pueda obtener un error menor que $\epsilon$ con una probabilidad mayor que $1-\delta$ . Evidentemente, si se viola la hipótesis del IID, esto alterará la complejidad de la muestra del mismo modo que la correlación altera tamaño efectivo de la muestra . Algunas referencias: [1] , [2] , [3] .

Otra dirección interesante es adaptación del dominio . En este caso, sus conjuntos de entrenamiento y prueba ( $X$ y $T$ resp) son de diferentes distribuciones sobre el espacio de datos (por ejemplo, entrenar con caniches frente a gatos domésticos, pero probar con chihuahuas frente a tigres), es decir $X\sim D_1, T\sim D_2$ . Entonces su función de pérdida dependerá de la diferencia entre las distribuciones $D_1$ y $D_2$ ¡! Una referencia para esto es Sun et al, Un estudio sobre la adaptación del dominio a múltiples fuentes .

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X