Deje $\mathbf{x}\in\Bbb{R}^n$ ser un vector normal multivariante, es decir, $\mathbf{x}\sim\mathcal{N}(\bar{\mathbf{x}},\Sigma)$, cuando la media del vector $\bar{\mathbf{x}}$ y la matriz de covarianza $\Sigma\in\Bbb{S}_{++}^n$ se dan. Tenga en cuenta que $\Bbb{S}_{++}^n$ denota el conjunto de simétrica positiva definida $n\times n$ real de las matrices.
También, vamos a $h\colon\Bbb{R}^n\to\Bbb{R}$ ser un valor real de la función de $\mathbf{x}\sim\mathcal{N}(\bar{\mathbf{x}},\Sigma)$. Desde $\mathbf{x}$ es un vector aleatorio, podemos encontrar el valor de la media de $h$ $$ \bar{h} = \int_{\Bbb{R}^n}\! h(\mathbf{x})f(\mathbf{x}) \,\mathrm{d}\mathbf{x}, $$ donde $f$ denota la función de densidad de probabilidad de $\mathbf{x}$.
En el caso simple donde $h$ es la función identidad, es decir, $h(\mathbf{x})=\mathbf{x}$, el valor de la media de $h$ es sólo el valor de la media de $\mathbf{x}$; es decir, $$ \bar{h} = \int_{\Bbb{R}^n}\! \mathbf{x}f(\mathbf{x}) \,\mathrm{d}\mathbf{x} = \bar{\mathbf{x}}. $$
Ahora, vamos a suponer que $h$ es una función arbitraria y podemos generar los ejemplos siguientes de $\mathcal{N}(\bar{\mathbf{x}},\Sigma)$: $\mathbf{x}_i\in\Bbb{R}^n$, $i=1,\ldots,N$.
Tengo las siguientes preguntas:
Una. Es verdad que, como $N$ tiende a infinito, el valor de la media de $h$ puede ser estimado a través de las siguientes cantidades? Si es así, esta es una consecuencia del teorema del límite central? $$ \tilde{h} = \frac{1}{N}\sum_{i=1}^{N}h(\mathbf{x}_i) $$
B. Cuántas muestras, $N$, debemos sacar de la distribución, de manera que tenemos una buena (con algún error $\epsilon$?) estimación de $\bar{h}$? Cómo es este relacionado con la dimensionalidad del espacio de entrada?
Por ejemplo, en el caso de $h(\mathbf{x})=\mathbf{x}$, ¿cuántas muestras de qué necesitamos para tener una buena estimación de la media de $\bar{\mathbf{x}}$?
En general, en el caso de una función arbitraria $h$, podemos tener cualquier error de los límites para la elección de un tamaño muestral $N$? Hay un método para la búsqueda de esos límites basados en la forma explícita de $h$?
EDICIÓN Basada en la excelente respuesta de @Batman a continuación, he intentado lo siguiente (trabajo en progreso):
Primer intento (Fallido)
El McDiarmid la desigualdad (también conocido como el acotado a diferencia de la desigualdad). La integridad del bien, puedo copiar el siguiente teorema a partir de esta monografía por Raginsky y Sason (Secc. 2.2.3, páginas 18-19):
Deje $\mathcal{X}$ un conjunto, y deje $h\colon\mathcal{X}\to\Bbb{R}$ ser una función que satisface la acotado a diferencia de la asunción:
$$ \sup_{x_1,\ldots,x_n,x_i^\prime} \lvert h(x_1,\ldots,x_{i-1},x_i,x_{i+1},\ldots,x_n) -h(x_1,\ldots,x_{i-1},x_i',x_{i+1},\ldots,x_n) \rvert\leq d_i $$ para cada $1\leq i\leq n$ donde $d_i$ son arbitrarias no reales negativas constantes. Esto es equivalente a decir que, para cada $i$, la variación de la función $h$ con respecto a su $i$-ésima coordenada es superior delimitada por $d_i$.
Teorema (McDiarmid de la desigualdad). Deje $\{X_k\}_{k=1}^{n}$ ser independiente (no necesariamente idénticamente distribuidas) al azar ariables toma valores en un espacio medible $\mathcal{X}$. Considere la posibilidad de una variable aleatoria $U = h(x_1,\ldots,x_n)$ donde $h\colon\mathcal{X}\to\Bbb{R}$ es un medibles función de la satisfacción de las delimitada diferencia de la asunción. A continuación, para cada $r\geq0$, $$ P\left(\lvert U-\Bbb{E}U\rvert\geq r\right) \leq 2\exp \left(-\frac{2r^2}{\sum_{k=1}^{n}d_k^2}\right) $$
La función de $h$ me interesa, es el llamado "de la bisagra de la pérdida", es decir,$h(\mathbf{x})=\max(0, 1-y(\mathbf{w}^\top\mathbf{x}+b))$, donde $\mathbf{w}$, $b$, y $y$ son parámetros dados.
Parece que el McDiarmid la desigualdad no es adecuado, ya que no satisface a los delimitada diferencia de la asunción.
Por lo tanto, ahora estoy buscando otro ejemplo de desigualdad apropiado para $h(\mathbf{x})=\max(0, 1-y(\mathbf{w}^\top\mathbf{x}+b))$.
Sin embargo, aparte de esto, lo que todavía no entiendo es cómo el tamaño muestral $N$ (para la estimación de $\tilde{h} = \frac{1}{N}\sum_{i=1}^{N}h(\mathbf{x}_i)$) puede estar relacionado con el "error" $r$ y la dimensionalidad $n$. Usted puede ayudar en este tema en particular?
Segundo intento (Necesidades de revisión)
Funciones de Lipschitz de Gauss variables
Primero vamos a recordar que una función $f\colon\Bbb{R}^n\to\Bbb{R}$ $\mathcal{L}$- Lipschitz con respecto a la norma Euclídea si $$ \lvert f(\mathbf{x})-f(\mathbf{y})\rvert\leq\mathcal{L}\lVert\mathbf{x}-\mathbf{y}\rVert. $$
Teorema: Vamos a $\mathbf{x}=(x_1,\ldots,x_n)$ ser un vector aleatorio de $n$ i.yo.d. Gauss estándar de las variables, y deje $f\colon\Bbb{R}^n\to\Bbb{R}$ $\mathcal{L}$- Lipschitz con respecto a la norma Euclídea $\lVert\cdot\rVert$. A continuación, la variable $h(\mathbf{x})-\Bbb{E}[h(\mathbf{x})]$ es sub-Gaussiano con el parámetro en la mayoría de las $\mathcal{L}$, y por lo tanto $$ P\left(\lvert h(\mathbf{x})-\Bbb{E}[h(\mathbf{x})] \rvert \geq r\right) \leq 2\exp\left(-\frac{1}{2}\left(\frac{t}{\mathcal{L}}\right)^2\right). $$
Estamos interesados en la función $h(\mathbf{x})=\max(0, 1-y(\mathbf{w}^\top\mathbf{x}+b))$ donde $y\in\{\pm1\}$, y $\mathbf{w}$, $b$ son los parámetros dados.
Podemos demostrar fácilmente que $h$ $\mathcal{L}$- Lipschitz con respecto a la norma Euclídea, es decir, $$ \lvert f(\mathbf{x})-f(\mathbf{y})\rvert\leq\mathcal{L}\lVert\mathbf{x}-\mathbf{y}\rVert, $$ donde $\mathcal{L}=\lVert\mathbf{w}\rVert$. Esto significa que $$ P\left(\lvert h(\mathbf{x})-\Bbb{E}[h(\mathbf{x})] \rvert \geq r\right) \leq 2\exp\left(-\frac{1}{2}\left(\frac{r}{\lVert\mathbf{w}\rVert}\right)^2\right). $$