4 votos

Estimación del valor esperado de una función de una variable aleatoria

Deje $\mathbf{x}\in\Bbb{R}^n$ ser un vector normal multivariante, es decir, $\mathbf{x}\sim\mathcal{N}(\bar{\mathbf{x}},\Sigma)$, cuando la media del vector $\bar{\mathbf{x}}$ y la matriz de covarianza $\Sigma\in\Bbb{S}_{++}^n$ se dan. Tenga en cuenta que $\Bbb{S}_{++}^n$ denota el conjunto de simétrica positiva definida $n\times n$ real de las matrices.

También, vamos a $h\colon\Bbb{R}^n\to\Bbb{R}$ ser un valor real de la función de $\mathbf{x}\sim\mathcal{N}(\bar{\mathbf{x}},\Sigma)$. Desde $\mathbf{x}$ es un vector aleatorio, podemos encontrar el valor de la media de $h$ $$ \bar{h} = \int_{\Bbb{R}^n}\! h(\mathbf{x})f(\mathbf{x}) \,\mathrm{d}\mathbf{x}, $$ donde $f$ denota la función de densidad de probabilidad de $\mathbf{x}$.

En el caso simple donde $h$ es la función identidad, es decir, $h(\mathbf{x})=\mathbf{x}$, el valor de la media de $h$ es sólo el valor de la media de $\mathbf{x}$; es decir, $$ \bar{h} = \int_{\Bbb{R}^n}\! \mathbf{x}f(\mathbf{x}) \,\mathrm{d}\mathbf{x} = \bar{\mathbf{x}}. $$

Ahora, vamos a suponer que $h$ es una función arbitraria y podemos generar los ejemplos siguientes de $\mathcal{N}(\bar{\mathbf{x}},\Sigma)$: $\mathbf{x}_i\in\Bbb{R}^n$, $i=1,\ldots,N$.

Tengo las siguientes preguntas:

Una. Es verdad que, como $N$ tiende a infinito, el valor de la media de $h$ puede ser estimado a través de las siguientes cantidades? Si es así, esta es una consecuencia del teorema del límite central? $$ \tilde{h} = \frac{1}{N}\sum_{i=1}^{N}h(\mathbf{x}_i) $$

B. Cuántas muestras, $N$, debemos sacar de la distribución, de manera que tenemos una buena (con algún error $\epsilon$?) estimación de $\bar{h}$? Cómo es este relacionado con la dimensionalidad del espacio de entrada?

Por ejemplo, en el caso de $h(\mathbf{x})=\mathbf{x}$, ¿cuántas muestras de qué necesitamos para tener una buena estimación de la media de $\bar{\mathbf{x}}$?

En general, en el caso de una función arbitraria $h$, podemos tener cualquier error de los límites para la elección de un tamaño muestral $N$? Hay un método para la búsqueda de esos límites basados en la forma explícita de $h$?


EDICIÓN Basada en la excelente respuesta de @Batman a continuación, he intentado lo siguiente (trabajo en progreso):

Primer intento (Fallido)

El McDiarmid la desigualdad (también conocido como el acotado a diferencia de la desigualdad). La integridad del bien, puedo copiar el siguiente teorema a partir de esta monografía por Raginsky y Sason (Secc. 2.2.3, páginas 18-19):

Deje $\mathcal{X}$ un conjunto, y deje $h\colon\mathcal{X}\to\Bbb{R}$ ser una función que satisface la acotado a diferencia de la asunción:

$$ \sup_{x_1,\ldots,x_n,x_i^\prime} \lvert h(x_1,\ldots,x_{i-1},x_i,x_{i+1},\ldots,x_n) -h(x_1,\ldots,x_{i-1},x_i',x_{i+1},\ldots,x_n) \rvert\leq d_i $$ para cada $1\leq i\leq n$ donde $d_i$ son arbitrarias no reales negativas constantes. Esto es equivalente a decir que, para cada $i$, la variación de la función $h$ con respecto a su $i$-ésima coordenada es superior delimitada por $d_i$.

Teorema (McDiarmid de la desigualdad). Deje $\{X_k\}_{k=1}^{n}$ ser independiente (no necesariamente idénticamente distribuidas) al azar ariables toma valores en un espacio medible $\mathcal{X}$. Considere la posibilidad de una variable aleatoria $U = h(x_1,\ldots,x_n)$ donde $h\colon\mathcal{X}\to\Bbb{R}$ es un medibles función de la satisfacción de las delimitada diferencia de la asunción. A continuación, para cada $r\geq0$, $$ P\left(\lvert U-\Bbb{E}U\rvert\geq r\right) \leq 2\exp \left(-\frac{2r^2}{\sum_{k=1}^{n}d_k^2}\right) $$

La función de $h$ me interesa, es el llamado "de la bisagra de la pérdida", es decir,$h(\mathbf{x})=\max(0, 1-y(\mathbf{w}^\top\mathbf{x}+b))$, donde $\mathbf{w}$, $b$, y $y$ son parámetros dados.

Parece que el McDiarmid la desigualdad no es adecuado, ya que no satisface a los delimitada diferencia de la asunción.

Por lo tanto, ahora estoy buscando otro ejemplo de desigualdad apropiado para $h(\mathbf{x})=\max(0, 1-y(\mathbf{w}^\top\mathbf{x}+b))$.

Sin embargo, aparte de esto, lo que todavía no entiendo es cómo el tamaño muestral $N$ (para la estimación de $\tilde{h} = \frac{1}{N}\sum_{i=1}^{N}h(\mathbf{x}_i)$) puede estar relacionado con el "error" $r$ y la dimensionalidad $n$. Usted puede ayudar en este tema en particular?

Segundo intento (Necesidades de revisión)

Funciones de Lipschitz de Gauss variables

Primero vamos a recordar que una función $f\colon\Bbb{R}^n\to\Bbb{R}$ $\mathcal{L}$- Lipschitz con respecto a la norma Euclídea si $$ \lvert f(\mathbf{x})-f(\mathbf{y})\rvert\leq\mathcal{L}\lVert\mathbf{x}-\mathbf{y}\rVert. $$

Teorema: Vamos a $\mathbf{x}=(x_1,\ldots,x_n)$ ser un vector aleatorio de $n$ i.yo.d. Gauss estándar de las variables, y deje $f\colon\Bbb{R}^n\to\Bbb{R}$ $\mathcal{L}$- Lipschitz con respecto a la norma Euclídea $\lVert\cdot\rVert$. A continuación, la variable $h(\mathbf{x})-\Bbb{E}[h(\mathbf{x})]$ es sub-Gaussiano con el parámetro en la mayoría de las $\mathcal{L}$, y por lo tanto $$ P\left(\lvert h(\mathbf{x})-\Bbb{E}[h(\mathbf{x})] \rvert \geq r\right) \leq 2\exp\left(-\frac{1}{2}\left(\frac{t}{\mathcal{L}}\right)^2\right). $$

Estamos interesados en la función $h(\mathbf{x})=\max(0, 1-y(\mathbf{w}^\top\mathbf{x}+b))$ donde $y\in\{\pm1\}$, y $\mathbf{w}$, $b$ son los parámetros dados.

Podemos demostrar fácilmente que $h$ $\mathcal{L}$- Lipschitz con respecto a la norma Euclídea, es decir, $$ \lvert f(\mathbf{x})-f(\mathbf{y})\rvert\leq\mathcal{L}\lVert\mathbf{x}-\mathbf{y}\rVert, $$ donde $\mathcal{L}=\lVert\mathbf{w}\rVert$. Esto significa que $$ P\left(\lvert h(\mathbf{x})-\Bbb{E}[h(\mathbf{x})] \rvert \geq r\right) \leq 2\exp\left(-\frac{1}{2}\left(\frac{r}{\lVert\mathbf{w}\rVert}\right)^2\right). $$

3voto

Batman Puntos 8185

El hecho de que el $x_i$'s y por lo tanto el $h(x_i)$'s son i.yo.d. es lo importante (a pesar de que la Gaussianidad de $x_i$ puede ser útil en algunas técnicas que se muestran en los enlaces de las referencias). Las cosas de abajo puede ser extendido para el no-yo.yo.d. ajuste en algunos casos, pero es mucho más doloroso.

A) Bajo condiciones suaves (básicamente, $E[h(X)]$ existe y algunos momentos u otros requisitos dependiendo de la variante que estás mirando), usted puede encontrar un (débil/fuerte) ley de los grandes números dice que ese $\tilde{h} \to E[h(X)]$ (probabilidad/mean square/seguramente/lo que sea). Un teorema del límite central diría que bajo condiciones suaves, en sustitución de $N$ en el denominador con $\sqrt{N}$ y restando la media te de la convergencia en distribución a una Gaussiana.

B) puede utilizar la concentración de las desigualdades (por ejemplo, un Chernoff obligado a ser un clásico que la mayoría de las cosas se deriva) para limitar la desviación de $\tilde{h}$ de la media como una función del tamaño de la muestra. Que la concentración de la desigualdad a utilizar depende del contexto. Estos dan los resultados como $P(| \tilde{h} - E[h] | \geq \epsilon) \leq f(\epsilon,n)$. Muchos de aprendizaje de la máquina de la teoría de los libros de texto/nota conjuntos de cubrir este tipo de cosas (como este o este o este). Una referencia es la Concentración de las Desigualdades: Un Nonasymptotic Teoría de la Independencia, por Boucheron, Lugosi y Massart. Otra buena referencia es el libro de Sason y Raginsky. Y otra buena referencia es la Concentración de Medida para el Análisis de Algoritmos Aleatorizados por Dubhashi y Panconesi. Este libro se llama de Alta dimensión de Probabilidad Para los Matemáticos y los Científicos de Datos por Roman Vershynin es también muy interesante.

Usted también puede encontrar un gran desviaciones principio (PLD), en algunos casos (por ejemplo, del Teorema de Cramer) para ver el asintótica de escala de la desviación de la media de la probabilidad con el tamaño de la muestra. Estos dan los resultados como $\lim_{n \to \infty} \frac{P(\tilde{h} \geq E[h] + \delta)}{n} = - I(\delta)$ donde $I$ es una función conocida como una función de frecuencia. El estándar de referencia en estos días es Dembo Y Zeitouni Grandes desviaciones: Técnicas y Aplicaciones.

i-Ciencias.com

I-Ciencias es una comunidad de estudiantes y amantes de la ciencia en la que puedes resolver tus problemas y dudas.
Puedes consultar las preguntas de otros usuarios, hacer tus propias preguntas o resolver las de los demás.

Powered by:

X